Au sujet de Google et des robots.txt…

Olivier Andrieu / 05 Sep 2012 à 08h53

Temps de lecture : 3 minutes

Partagez l'article

Une petite mise au point sur des possibilités de mauvaise interprétation du message, dans les résultats de Google, indiquant qu'une page web est interdite de crawl par un fichier robots.txt...

Le 20 août dernier, nous vous signalions que Google indiquait dans ses résultats lorsqu'une page était bloquée par un fichier robots.txt sous la forme du texte "A description for this result is not available because of this site’s robots.txt – learn more" (en français : "La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus") comme représenté ci-dessous :

Source de l'image : Search Engine Land

Certains (notamment ici) ont pu croire, à la lecture de cette actualité, que Google crawlait des pages qui étaient pourtant interdites à cette action au travers du fichier robots.txt. Soyons clair : il n'en est rien : avant qu'un message soit affiché sous la mention indiquée ci-dessus, les résultats de ce type affichaient l'URL de la page (ou un texte plus explicite parfois) comme titre et aucun "snippet" (texte de présentation) comme ici :

Source de l'image : DEE-ESS

Cela signifie que Google connait les pages en question (il a notamment détecté un lien vers elles) mais, comme elles sont interdites au crawl, il ne connait pas leur contenu et ne peut donc pas en proposer un "snippet". Le titre proposé est la plupart du temps issu d'un texte d'ancre pointant sur la page en question.

Il est donc clair que ces pages ne sont pas crawlées ni analysées par les moteurs de recherche. La véritable question est en revanche l'intérêt de les faire apparaître dans les résultats de recherche au vu du faible intérêt qu'elles représentent (comme content is king, difficile de briguer le trône quand il n'y a pas de "content" !!). Il me semble me souvenir que Google avait indiqué, il y a quelques années de cela, que ces URL apparaissaient de façon transitoire, entre le moment où Google les a détectées (via un lien vers elles) et celui où il s'aperçoit qu'elles sont interdites de crawl par un robots.txt.

Ce qui ne semble plus valable puisque Google affiche désormais un message explicite à propos du robots.txt. Dans ce cas, pourquoi ne pas les désindexer purement et simplement ??

Auteur : Olivier Andrieu.

Olivier Andrieu

Fondateur Abondance

Olivier Andrieu était consultant SEO indépendant. Il a créé la société Abondance en 1996 et le site abondance.com en 1998. En 2023, il a décidé de prendre sa « retraite SEO » pour se consacrer à son activité de scénariste de BD à temps plein.

ActuMoteurs, la newsletter hebdo d'Abondance

Rejoignez nos 20 000 abonnés et recevez, chaque semaine, tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.

16 Commentaires

convertic sur 20 novembre 2012 à 12 h 44 min

@ François-Olivier @Olivier les pages sont crawlées puisque le title (exact) de la page bloqué apparaît dans les SERP …
Réponse
Robert sur 17 novembre 2012 à 12 h 20 min

Les pages interdites d’indexation par le robots.text sont bien repérées comme telles par Google et figurent dans les réponses à des requêtes avec le message signalant le blocage du contenu.
On peut y accéder en cliquant sur le lien qui apparaît clairement avec son URL!!…Elles sont donc indexées chez Google et accessibles à partir des serp
Ces liens vers des pages que l’on souhaite éliminer de l’index, pour éviter par exemple qu’elles viennent concurrencer des pages plus pertinentes, subsistent dans les SERP et le blocage est donc partiellement inefficace.
Ce n’est pas par ce que le « snippet » a été remplacé par le message d’information que l’on évitera le fait qu’un internaute clique sur le lien apparent en clair et actif.
Google reconnait lui-même que si un lien provenant d’un autre site pointe vers une page « bloquée », le lien peut apparaître dans les SERP avec probablement le texte d’ancre comme description..
Si une page reçoit beaucoup de liens de sites extérieurs avec des textes d’ancre variés, on retrouvera dans les serp plusieurs liens vers cette page « bloquée » à avec plusieurs descriptions
En conclusion, les contenus complets des pages ne sont peut-être pas indexés et ne servent peut-être pas à Google pour ses analyses de positionnement, mais les url « bloquées » sont bien là dans les serp et accessibles depuis les serp. Le « blocage » est bien partiel.
Réponse
bidule16 sur 16 novembre 2012 à 16 h 21 min

Bonjour,

J’ai mis en ligne mon site via WIX il y a 5 jours et je ne vois toujours pas le descriptif de mon site dans google. Quand je rentre le nom de mon site.com dans Google, j’ai exactement ce message d’erreur :
pas accessible à cause du fichier robots.txt de ce site

Que faire pour que Google n’interdise pas la description de mon site et qu’il soit pris en compte dans les moteurs ?
merci pour vos lumières !
Réponse
- Robert sur 17 novembre 2012 à 14 h 27 min
  
  Google recommande d’utiliser la méta balise noindex plutôt que le fichier robots.text pour éviter le problème
  Réponse
novia-sante.fr sur 11 octobre 2012 à 23 h 12 min

Olivier,

Ne pensez vous pas qu’il y a un bug du moteur de recherche ? Cela me surprend qu’ils laissent trainer ce type d’erreur
Réponse
Mathieu sur 11 septembre 2012 à 11 h 58 min

Bonjour,

merci Olivier pour cette info.

La page n’est pas indexée, mail l’URL l’est en quelque sorte ?
Comment sont stockées ces URL bloquées, ce n’est pas l’index, c’est l’ordonnanceur ? Ce je comprends mal, c’est que les SERP sont une vue de l’index…?
Merci de vos lumières.
Réponse
Guillaume sur 6 septembre 2012 à 17 h 16 min

Cela signifie que si l’on veut cacher une page à Google et donc aux internautes, le robots.txt ne sert plus à grand chose… Mieux vaut un accès sécurisé par login/mot de passe ! C’est un peu comme si Google disait « Regardez cette page à laquelle on m’a interdit l’accès »
Réponse
Christophe sur 6 septembre 2012 à 12 h 43 min

Google devrait faire attention à ses propres produits car cette absence de description n’est pas du meilleur effet au niveau marketing. Exemple sur une recherche « Google Drive », le premier résultat est :

Google Drive – Drive – Google
https://drive.google.com/start
La description de ce résultat n’est pas accessible à cause du fichier robots.txt de ce site. En savoir plus

Mais dans ce cas, c’est quand même mieux d’avoir un résultat plutôt que pas de résultat, donc pour moi la balance penche du côté de l’affichage même partiel lorsque la page est bloquée par un robots.txt
Réponse
tutoriel référencement sur 6 septembre 2012 à 9 h 24 min

Je crois que cet article fais suite à l’article de Daniel Roch sur SEOmix.

Donc Google ne crawl pas ces pages mais les affiche dans ces résultats. Bizarre …
Réponse
olivier@abondance.com sur 6 septembre 2012 à 8 h 11 min

@ François-Olivier : oui nouveaux tests en cours… Et comme j’ai aussi reçu pas mal d’infos à ce sujet de la part de Google (comment le moteur prend en compte le robots.txt), il faut s’attendre à un nouvel article sur ce sujet d’ici peu de temps sur Abondance. 🙂
cdt
Réponse
- Mutuelle santé sur 26 octobre 2012 à 12 h 34 min
  
  On attend vivement la suite de cet article.
  
  Mélanie
  Réponse
François-Olivier sur 5 septembre 2012 à 17 h 47 min

Bonjour,

Tu dis qu’il est « Il est donc clair que ces pages ne sont pas crawlées ni analysées par les moteurs de recherche. » As tu des preuves et fais des tests pour être aussi catégorique ?
Pas présentée est une chose, pas crawlée s’en est une autre.
Réponse
Comparateur Mutuelle Santé sur 5 septembre 2012 à 15 h 44 min

Je suis pour la non indexation radicale de toutes les pages qui ne sont pas d’une qualité (de contenu) suffisante : d’ailleurs, mieux vaut se concentrer sur l’obtention de (très) bons résultats sur qq pages clés que de viser trop large. Allez, j’entends déjà les fans de la longue traîne hurler à la mort…
Réponse
David Cohen @dwynot sur 5 septembre 2012 à 13 h 08 min

Google ne met pas ses propres DOCS à l’abri
ou alors il nous donne des vieux os à ronger
Merci à @5eg

https://twitter.com/5eg/statuses/242960778796355584

David
Réponse
David Cohen @dwynot sur 5 septembre 2012 à 13 h 04 min

Son intérêt doit être de tout montrer, sans doute
mais alors, s’il trouve un doc sur DRIVE, il met le lien (protégé mais montrant l’existence tout de meme) ????

Notre intérêt est de ne rien mettre en ligne si on veut le cacher. (et je ne suis pas sûr d’avoir respecté cette rêgle).
Nos pratiques CLOUDY seraient alors un vrai danger pour nous.

David
Réponse
annuaire Français sur 5 septembre 2012 à 12 h 51 min

Je me suis posé la même question, d’autant qu’il me semble simple de procéder a l’inverse lors d’un suivis de lien, c’est a dire de faire sonder au robot le cas possible d’un blocage par fichier robots.txt ou pas, et d’indexer le lien ou pas en fonction.

le probleme, c’est que google tombe sur un lien contenant un login ou mot de passe, ou des informations privées, et que du coup, celles-ci soient publiées.

Cette annonce confirme que le robots de Google fait plusieurs passes pour analyser un site, mais cela, on le savait déjà.
Réponse

Laisser un commentaire Annuler la réponse

Au sujet de Google et des robots.txt…

Une petite mise au point sur des possibilités de mauvaise interprétation du message, dans les résultats de Google, indiquant qu'une page web est interdite de crawl par un fichier robots.txt...

Articles complémentaires :

Google va explorer des alternatives au fichier robots.txt

Goossips : Temps passé sur la page, Code 5xx sur robots.txt, Interdiction de crawl