Nous continuons notre série de questions/réponses avec Google en traitant une question qui revient assez souvent sur le nombre d'URL indexées par Google par rapport au nombre de pages décrites dans un fichier Sitemap.

En effet, il arrive souvent que, dans les Google Webmaster Tools (GWT), les Sitemaps sont indiqués avec environ la moitié des URL indexées, notamment pour les Sitemaps proposant un grand nombre de pages. En clair, si un Sitemap contient par exemple 5 000 URL, seules 2 500 (environ) sont indiquées dans les GWT comme indexées. Ce "phénomène" semble se réitérer sur de très nombreux sites.

Nous avons donc posé la question à Google et à Nathalie Peret, de l'équipe "Quality Search" du moteur, et voici sa réponse :

Question Abondance : Question : Souvent, dans les GWT, les Sitemaps sont indiqués avec environ la moitié des URL indexées, surtout pour les gros Sitemaps. Bien sûr, un Sitemap ne fournit pas de garanties d'indexation de toutes les pages qu'il référence, mais cette notion de "moitié du sitemap" est étrange... D'autre part, le "nombre d'URL indexées" renvoyé dans la zone "Sitemaps" des GWT est souvent totalement en contradiction avec les résultats renvoyés par la syntaxe "site:", sur des Sitemaps pourtant exhaustifs ? A priori, ce n'est pas logique. Pourquoi ?
 

La réponse de Google : Dans les GWT, les Sitemaps sont indiqués avec environ la moitié des URL indexées, surtout pour les gros Sitemaps :

Je voudrais préciser qu'il n'y a pas de bug dans les Outils pour les Webmasters par rapport à cette "moitié du Sitemap". Quand les algorithmes parcourent et indexent les pages, de nombreux facteurs entrent en compte et il est normal d'avoir des fluctuations. Il est tout aussi normal que toutes les pages sur le Web ne soient pas parcourues et indexées à tout moment.
Dans les Outils pour les Webmasters, les pages indexées du Sitemap prennent en compte l'URL exacte dans l'index. Si un site a du contenu dupliqué, et qu'une autre version du site est indexée, nous ne la compterons pas. Vous pouvez nous aider à mieux crawler et à indexer les URL des fichiers Sitemap en créant des sites facilement explorables et sans contenu dupliqué.
Parfois, il n'est pas vraiment nécessaire d'avoir toutes les pages d'un site qui soient indexées. Prenez l'exemple d'un site avec une page principale d'accès aux produits bien construite. Il n'y a pas besoin d'avoir toutes les pages individuelles de produits indexées car le contenu sera trouvé à partir de cette page principale. Petite astuce : un moyen de vérifier cela est de créer des fichiers Sitemap séparés pour chaque partie logique du site.

au sujet des Sitemaps et de la syntaxe site:

L'opérateur [site:] prend en compte tout ce que Googlebot a crawlé, et peut inclure des URL qui ne sont pas dans le Sitemap, comme des URL ajoutées récemment, ou d'autres URL trouvées en suivant des liens. Les pages indexées dans les Outils pour les Webmasters ne proviennent que du Sitemap.
Le nombre de pages indexées qui apparaissent avec l'opérateur [site:] est approximatif et sert à vérifier la santé d'un site. Cela est très utile pour vérifier si le site a été piraté car vous verrez des pages indexées avec des mots-clés ou du contenu suspects.
L'opérateur [site:] peut aussi servir à vérifier le contenu dupliqué : deux versions d'un site indexées (par exemple avec www et sans www au début de l'adresse), ou versions multiples d'une page. Cela vous permet aussi de voir ce qui est montré aux visiteurs dans les résultats de recherche: titres et descriptions, structure d'URL. Cela vous donne des informations utiles sur vos pages et sur ce que vous pouvez optimiser. Pour en savoir plus à ce sujet :
- http://googlewebmastercentral.blogspot.com/2009/03/using-stats-from-site-and-sitemap.html
- https://sites.google.com/site/webmasterhelpforum/fr/aide-au-referencement/interpreter-les-donnees-de-site-et-de-sitemap

Notre commentaire : la réponse de Google est assez claire : si vous voyez une grosse différence entre le nombre d'URL présentes dans le Sitemap et le nombre d'URL effectivement indexées par le moteur au travers du chiffre indiqué dans les GWT, c'est que vous avez certainement un petit (ou un gros !!) problème de "duplicate content" sur votre site. Seules les pages "canoniques" (originales) semblent être prises en compte dans le décompte proposé par Google dans les GWT. Les pages "dupliquées" sont donc supprimées de ce décompte.
Pour ce qui est des Sitemaps et de la syntaxe [site:], les deux systèmes ne mesurent pas exactement la même chose, il est donc normal que les résultats soient parfois différents. Ceci dit, là aussi, si les chiffres sont très disparates, il y a de fortes chances qu'il y ait du "duplicate content" dans l'air…  !!!

Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé