Le nombre de pages d'un site web indexées par Google - (Questions/réponses avec Google #10)

   
(English version - machine translation)

Nous continuons notre série de questions/réponses avec Google en traitant une question importante : comment faire pour obtenir des résultats fiables lorsqu'on cherche le nombre de pages web indexées par Google pour un site web donné ?

Il est en effet très important, selon nous, d'avoir une idée exacte du nombre de pages indexées par Google pour un site web donné. Sachant qu'une page crawlée par un robot n'est pas obligatoirement indexée par le moteur par la suite, le fait de suivre les visites des robots sur le site ne suffit pas. Le chiffre important, c'est avant tout le nombre de pages potentiellement "positionnables" présentes dans l'index. Parce qu'une page qui n'est pas dans l'index, il y a fort peu de chances qu'elle se retrouve dans les résultats du moteur de recherche...

Or, ce nombre de pages indexées par Google n'est pas si simple que ça à obtenir... Nous avons donc demandé à Google et à son équipe "Quality Search" ce qu'il en était, et voici leur réponse...

Cette question est adaptée d'un extrait de l'article "10 Questions à la "Search Quality Team" de Google " paru au mois de septembre 2010 dans la lettre professionnelle "Recherche et Référencement" du site Abondance.com. Les réponses sont fournies par :
- Matt Cutts (Head of Google Webspam team (Mountain View, US et parfois Kilimandjaro).
- John Mueller, (Webmaster Trends Analyst (Zurich, Suisse)).
- Susan Moskwa (Webmaster Trends Analyst (Mountain View, US)).
- Nathalie Peret (Search Quality Strategist (Dublin, Irlande)).
- Anouar Bendahou (Search Quality Associate (Dublin, Irlande)).

Question Abondance : De nombreux problèmes sont souvent constatés par les webmasters avec la syntaxe "site:" de Google, sensée fournir le nombre de pages d'un site web référencées par le moteur. Ce type de requête (par exemple : site:abondance.com) génère le plus souvent un nombre de résultats très différent d'un jour à l'autre et semble notoirement erroné. Il est ainsi extrêmement difficile de suivre le nombre de pages indexées par Google pour un site web donné. On sait que, d'autre part, la syntaxe "link:" de Google est, de la même façon erronée et ne donne qu'un nombre de backlinks très limité sur le moteur, mais le problème est contourné par des données beaucoup plus fiables sur ces backinks dans les Webmaster Tools. Dans ce cas, ne serait-il pas possible d'avoir, dans ces mêmes Webmaster Tools, des informations plus fiables et exhaustives sur l'indexation des pages pour pallier le manque de fiablilité de l'opérateur "site:" ?
 

La réponse de Google : Les webmasters nous posent en effet souvent cette question, notamment dans notre forum d'aide pour les webmasters (http://www.google.com/support/forum/p/webmasters?hl=fr) pour nous demander s'il ne s'agissait pas là d'un bug. En fait, l'opérateur "site:" a été prévu au départ pour fournir un nombre approximatif, une estimation des pages d'un site indexées par Google. Ce chiffre est intéressant pour vérifier la "santé" de votre site mais il est clair qu'il ne donnera pas un chiffre précis, une vision exacte de l'indexation de vos pages. Des fluctuations sont à attendre et les chiffres renvoyés vont effectivement changer selon les jours.

Sachez également que le "switch" entre notre ancien index et Caffeine a généré certaines différences entre les recherches/requêtes avec l'opérateur site :...

Pour obtenir des résultats plus précis et plus fiables, nous ne pouvons que vous conseiller de regarder plutôt l'indicateur du nombre d'URL de votre Sitemap indexées, dans les Webmaster Tools. Cet outil vous donnera également d'autres indications sur les erreurs de crawl (http://www.google.com/support/webmasters/bin/answer.py?answer=35120) que nos robots ont pu rencontrer sur votre site. Enfin, selon nous, le nombre de pages indexées nous semble un indicateur moins intéressant que le positionnement de ces pages, leur taux de clic ou leur taux de conversion.

Regarder et fournir des indications dans les Outils pour les webmasters sur les pages indexées (et non incluses dans un Sitemap) est un point qui a été discuté plusieurs fois dans notre équipe. Pour l'instant, ce n'est pas une priorité mais c'est quelque chose que nous regardons et que nous n'avons pas abandonné pour autant...

Notre commentaire : le nombre de pages indexées ne serait pas un bon indicateur pour le référencement d'un site web ? Objection, votre honneur :-)... Si, bien évidemment, il ne peut pas être le seul, il reste selon nous un critère important qui permet plusieurs choses :
- se rendre compte du pourcentage de page indexées par rapport au nombre total de pages ;
- détecter des soucis techniques (URL non compatibles, etc.) sur certaines pages ;
- etc.

D'autre part, il est évident que le taux de clics, le taux de conversion et le positionnement sont des indices importants, mais sur une page non indexée, difficile d'en voir l'intérêt... L'indexation reste, qu'on le veuille ou non, l'étape "zéro" du référencement et il nous semble important de le mesurer de la façon la plus fiable possible.

Google donne, dans sa réponse, une façon d'obtenir des résultats "plus fiables" en relevant le nombre d'URL indexées par rapport au nombre d'URL soumises dans le Sitemap, chiffre fourni dans les Webmaster Tools. Or, l'expérience nous pousse à penser que ce chiffre-là est également notoirement faux, et un phénomène fréquent montre un nombre d'URL indexées équivalent à environ la moitié du nombre d'URL soumises dans le Sitemap. Pourquoi ? Mystère...
Bref, peut-être faudra-t-il faire une pétition pour avoir droit un jour à ces chiffres fiables d'indexation de site web dans les Webmaster Tools ? Ou cela pose-t-il des problèmes techniques insolubles à Google de fournir de telles données ?
En complément, voici un post sur le forum d'aide Google pour les webmasters qui parle de ce sujet :
https://sites.google.com/site/webmasterhelpforum/fr/aide-au-referencement/interpreter-les-donnees-de-site-et-de-sitemap

Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé
7. Sitemaps et nombre d'URL indexées
8. Référencement et redirections 301
9. Google prend-il en compte l'attribut Longdesc ?

Commentaires : 6
  1. Marie 28 novembre 2010 at 13 h 07 min Reply

    Je contourne le problème. J'établis une carte des urls de mon site (xenu). Puis pour chaque url je vais vérifier son indexation. (scrapebox). Parce-que honnêtement les chiffres retournés pas la commande site: sont franchement fantaisistes..

  2. David Wynot 28 novembre 2010 at 13 h 37 min Reply

    Bonjour

    Sans compter que je ne met pas forcément toutes les pages dans le Sitemap. Je laisse le spider faire qqs découvertes à sa façonet donc indexer + de pages qu'annoncées sur le GWT

    Il y a 1 an encore, je cherchais l'index primaire et l'index secondaire par la commande "site:" (Google + Aol ou Free).
    GG a dit "ça n'existe plus" Bon admettons!

    Maintenant j'utilise la commande "site:" pour avoir juste une tendance mais en utilisant aussi "site:.monsite.com -n'importequellesuitedelettres"

    Et là le chiffre plus important se rapproche du nb probable de pages indexées, index secondaire compris donc, ben oui je ne voie que ça pour expliquer le nb de pages indexées.

    David Cohen

  3. Specialty Chemicals 29 novembre 2010 at 22 h 43 min Reply

    A la base, la commande site: permet de faire une recherche dans un nom de domaine donnée, pas d'obtenir le nombre de pages indexées...

  4. Abondance 30 novembre 2010 at 6 h 40 min Reply

    @ Specialty Chemicals : certes mais dans ce cas, Google aurait pu limiter cette syntaxe en supprimant la possibilité de l'utiliser seule (comme le faisait Ask.com par exemple)... A partir du moment où la requête "site:" peut être tapée sans autre mot clé supplémentaire, c'est dommage (et pas très pro à mon avis) de donner un résultat erroné du coup...
    cdt

  5. jasmine10 5 décembre 2010 at 17 h 28 min Reply

    Je crois que c'est une erreur de considérer que indexé ou pas, c'est comme blanc ou noir.

    Il y a en effet sur le web toute une série de pages de faible valeur pour lesquelles on peut obtenir des infos divergentes de la part de google selon la commande utilisée:
    -- commande cache: (ou le cache de la google barre)
    -- commande info: qui peut donner la page avec son cache (alors que cache: ne le trouve pas !) ou sans (ce qui est aussi paradoxal d'avoir une page en info: mais pas en cache:)
    -- la recherche universelle (sur le contenu de la page) qui donne la page avec son cache (alors que info: et/ou cache: ne donnent rien)!
    -- il y a aussi les cas, à mes yeux bizarres, où info: et/ou cache ne donnent rien mais que "recherche dans le site" donne bien la page.

    NB
    les cas précités ne concernent pas des cas de non indexation volontaire (robots txt, meta no archive, no index).

    NB Tout autre chose: quant à la réponse de google que le positionnement est plus important qu'indexation, oui OK, mais il n'y a plus de SERPs unique( vu personnalisation, différence entre google.com et google.fr,...).

  6. musculation 20 décembre 2012 at 16 h 53 min Reply

    Merci pour cet article. J'ai 4 pages sur mes 380 qui ne sont pas indexé. J'aimerai savoir si vous connaissez un outil pour "checker" les pages et savoir lesquelles ne sont pas indexées.

Laisser un commentaire (charte de saisie de commentaire)

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings