sens interdit

Une petite mise au point sur des possibilités de mauvaise interprétation du message, dans les résultats de Google, indiquant qu'une page web est interdite de crawl par un fichier robots.txt...

Le 20 août dernier, nous vous signalions que Google indiquait dans ses résultats lorsqu'une page était bloquée par un fichier robots.txt sous la forme du texte "A description for this result is not available because of this site’s robots.txt – learn more" (en français : "La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus") comme représenté ci-dessous :

robots txt google
Source de l'image : Search Engine Land

Certains (notamment ici) ont pu croire, à la lecture de cette actualité, que Google crawlait des pages qui étaient pourtant interdites à cette action au travers du fichier robots.txt. Soyons clair : il n'en est rien : avant qu'un message soit affiché sous la mention indiquée ci-dessus, les résultats de ce type affichaient l'URL de la page (ou un texte plus explicite parfois) comme titre et aucun "snippet" (texte de présentation) comme ici :

robots txt google
Source de l'image : DEE-ESS

Cela signifie que Google connait les pages en question (il a notamment détecté un lien vers elles) mais, comme elles sont interdites au crawl, il ne connait pas leur contenu et ne peut donc pas en proposer un "snippet". Le titre proposé est la plupart du temps issu d'un texte d'ancre pointant sur la page en question.

Il est donc clair que ces pages ne sont pas crawlées ni analysées par les moteurs de recherche. La véritable question est en revanche l'intérêt de les faire apparaître dans les résultats de recherche au vu du faible intérêt qu'elles représentent (comme content is king, difficile de briguer le trône quand il n'y a pas de "content" !!). Il me semble me souvenir que Google avait indiqué, il y a quelques années de cela, que ces URL apparaissaient de façon transitoire, entre le moment où Google les a détectées (via un lien vers elles) et celui où il s'aperçoit qu'elles sont interdites de crawl par un robots.txt.

Ce qui ne semble plus valable puisque Google affiche désormais un message explicite à propos du robots.txt. Dans ce cas, pourquoi ne pas les désindexer purement et simplement ??