Sitemaps et nombre d'URL indexées - (Questions/réponses avec Google #7)

   
(English version - machine translation)

Nous continuons notre série de questions/réponses avec Google en traitant une question qui revient assez souvent sur le nombre d'URL indexées par Google par rapport au nombre de pages décrites dans un fichier Sitemap.

En effet, il arrive souvent que, dans les Google Webmaster Tools (GWT), les Sitemaps sont indiqués avec environ la moitié des URL indexées, notamment pour les Sitemaps proposant un grand nombre de pages. En clair, si un Sitemap contient par exemple 5 000 URL, seules 2 500 (environ) sont indiquées dans les GWT comme indexées. Ce "phénomène" semble se réitérer sur de très nombreux sites.

Nous avons donc posé la question à Google et à Nathalie Peret, de l'équipe "Quality Search" du moteur, et voici sa réponse :

Question Abondance : Question : Souvent, dans les GWT, les Sitemaps sont indiqués avec environ la moitié des URL indexées, surtout pour les gros Sitemaps. Bien sûr, un Sitemap ne fournit pas de garanties d'indexation de toutes les pages qu'il référence, mais cette notion de "moitié du sitemap" est étrange... D'autre part, le "nombre d'URL indexées" renvoyé dans la zone "Sitemaps" des GWT est souvent totalement en contradiction avec les résultats renvoyés par la syntaxe "site:", sur des Sitemaps pourtant exhaustifs ? A priori, ce n'est pas logique. Pourquoi ?
 

La réponse de Google : Dans les GWT, les Sitemaps sont indiqués avec environ la moitié des URL indexées, surtout pour les gros Sitemaps :

Je voudrais préciser qu'il n'y a pas de bug dans les Outils pour les Webmasters par rapport à cette "moitié du Sitemap". Quand les algorithmes parcourent et indexent les pages, de nombreux facteurs entrent en compte et il est normal d'avoir des fluctuations. Il est tout aussi normal que toutes les pages sur le Web ne soient pas parcourues et indexées à tout moment.
Dans les Outils pour les Webmasters, les pages indexées du Sitemap prennent en compte l'URL exacte dans l'index. Si un site a du contenu dupliqué, et qu'une autre version du site est indexée, nous ne la compterons pas. Vous pouvez nous aider à mieux crawler et à indexer les URL des fichiers Sitemap en créant des sites facilement explorables et sans contenu dupliqué.
Parfois, il n'est pas vraiment nécessaire d'avoir toutes les pages d'un site qui soient indexées. Prenez l'exemple d'un site avec une page principale d'accès aux produits bien construite. Il n'y a pas besoin d'avoir toutes les pages individuelles de produits indexées car le contenu sera trouvé à partir de cette page principale. Petite astuce : un moyen de vérifier cela est de créer des fichiers Sitemap séparés pour chaque partie logique du site.

au sujet des Sitemaps et de la syntaxe site:

L'opérateur [site:] prend en compte tout ce que Googlebot a crawlé, et peut inclure des URL qui ne sont pas dans le Sitemap, comme des URL ajoutées récemment, ou d'autres URL trouvées en suivant des liens. Les pages indexées dans les Outils pour les Webmasters ne proviennent que du Sitemap.
Le nombre de pages indexées qui apparaissent avec l'opérateur [site:] est approximatif et sert à vérifier la santé d'un site. Cela est très utile pour vérifier si le site a été piraté car vous verrez des pages indexées avec des mots-clés ou du contenu suspects.
L'opérateur [site:] peut aussi servir à vérifier le contenu dupliqué : deux versions d'un site indexées (par exemple avec www et sans www au début de l'adresse), ou versions multiples d'une page. Cela vous permet aussi de voir ce qui est montré aux visiteurs dans les résultats de recherche: titres et descriptions, structure d'URL. Cela vous donne des informations utiles sur vos pages et sur ce que vous pouvez optimiser. Pour en savoir plus à ce sujet :
- http://googlewebmastercentral.blogspot.com/2009/03/using-stats-from-site-and-sitemap.html
- https://sites.google.com/site/webmasterhelpforum/fr/aide-au-referencement/interpreter-les-donnees-de-site-et-de-sitemap

Notre commentaire : la réponse de Google est assez claire : si vous voyez une grosse différence entre le nombre d'URL présentes dans le Sitemap et le nombre d'URL effectivement indexées par le moteur au travers du chiffre indiqué dans les GWT, c'est que vous avez certainement un petit (ou un gros !!) problème de "duplicate content" sur votre site. Seules les pages "canoniques" (originales) semblent être prises en compte dans le décompte proposé par Google dans les GWT. Les pages "dupliquées" sont donc supprimées de ce décompte.
Pour ce qui est des Sitemaps et de la syntaxe [site:], les deux systèmes ne mesurent pas exactement la même chose, il est donc normal que les résultats soient parfois différents. Ceci dit, là aussi, si les chiffres sont très disparates, il y a de fortes chances qu'il y ait du "duplicate content" dans l'air…  !!!

Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé

Commentaires : 7
  1. Mo' 24 mai 2010 at 12 h 14 min Reply

    Merci pour ce billet.
    Mais pouvez-vous préciser ce qu'évalue réellement la commande "site". Récemment sur Abondance Philippe Yonnet diasait que l'on ne pouvait pas vraiment s'y fier...
    Merci

  2. Anonymous 24 mai 2010 at 22 h 17 min Reply

    Comme toutes les requêtes, le "site:" doit donner la liste des pages pertinentes liées à la requête, d'où la non-exhaustivité des résultats.

  3. Abondance 25 mai 2010 at 5 h 54 min Reply

    Certes mais utilisée seule (sans mot clé), la syntaxe site:www.votresite.com, si elle devait rendre un résultat pertinent, renverrait la liste exhaustive de pages indexées. Il semble que cela ne soit pas le cas, ce qui est bien dommage.
    La syntaxe "link:" par exemple, renvoit uniquement un faible pourcentage des backlinks mais les GWT fournissent un outil beaucoup plus exhaustif,ce qui est une bonne chose.
    Pourquoi ne pas penser qu'à court terme, les GWT ne proposent pas un outil similaire, listant TOUTES les pages d'un site indexées par Google ? Ce serait cohérent... Actuellement, les GWT, sur ce point, disent d'utiliser la syntaxe "site:" pour obtenir cette liste. Là, par contre, ce n'est pas très cohérent...
    Cdt

  4. paul 25 mai 2010 at 9 h 46 min Reply

    Bonjour, merci pour cette interview.
    Serait il possible d'avoir des "details" sur ce passage :
    "L'opérateur [site:] prend en compte tout ce que Googlebot a crawlé"

    N'y a t il pas une faute de frappe ?
    L'opérateur site n'indiquerait il pas plutôt les pages "indexées" ???

  5. Abondance 25 mai 2010 at 9 h 58 min Reply

    Bjr
    Oui tout à fait : il s'agit plus d'indexation que de crawl...
    Cdt

  6. David Wynot 25 mai 2010 at 14 h 56 min Reply

    la phrase la plus importante de l'interview est
    "Petite astuce : un moyen de vérifier cela est de créer des fichiers Sitemap séparés pour chaque partie logique du site"
    Ce sera le meilleur moyen de voir où se situe de pb d'indexation"

    Le reste est approximation & tortillement comme la non-cohérence bien vue entre "site:" et "WMT sitemap".

    D'ailleurs Philippe Yonnet avait raison puisque, sur 1 site marchand, je suis (suivre) encore le chiffre d'indexation "site:" hebdo et il est passé depuis 2 mois de 50 000 (c'était beaucoup trop depuis + d'1 an) à 5000 (presque normal).
    Et les URL canonical sont en place depuis plus de 6 mois partout donc si duplicate...il est éliminé depuis plusieurs mois.

    David C

  7. Johnny 4 juin 2010 at 9 h 38 min Reply

    Bonjour et merci !

    Concernant le problème de duplicate content, la différence entre la requête "site:" et le nombre de liens du GWT est importante, est qu'il ne peut aussi s'agir de site multilingues?

    (Je parle de mon expérience avec un site dynamique sous joomla!.)

    Je suppose que le sitemap est constitué des liens depuis la "structure" du site sans différence entre les langues, alors que la requête fait sortir toute les pages indexées dans toute les langues pour le site visé...

Laisser un commentaire (charte de saisie de commentaire)

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *


*

Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings