> > Au sujet de Google et des robots.txt...

Au sujet de Google et des robots.txt...


Notez cet article

sens interdit

Une petite mise au point sur des possibilités de mauvaise interprétation du message, dans les résultats de Google, indiquant qu'une page web est interdite de crawl par un fichier robots.txt...

Le 20 août dernier, nous vous signalions que Google indiquait dans ses résultats lorsqu'une page était bloquée par un fichier robots.txt sous la forme du texte "A description for this result is not available because of this site’s robots.txt – learn more" (en français : "La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus") comme représenté ci-dessous :

robots txt google
Source de l'image : Search Engine Land

Certains (notamment ici) ont pu croire, à la lecture de cette actualité, que Google crawlait des pages qui étaient pourtant interdites à cette action au travers du fichier robots.txt. Soyons clair : il n'en est rien : avant qu'un message soit affiché sous la mention indiquée ci-dessus, les résultats de ce type affichaient l'URL de la page (ou un texte plus explicite parfois) comme titre et aucun "snippet" (texte de présentation) comme ici :

robots txt google
Source de l'image : DEE-ESS

Cela signifie que Google connait les pages en question (il a notamment détecté un lien vers elles) mais, comme elles sont interdites au crawl, il ne connait pas leur contenu et ne peut donc pas en proposer un "snippet". Le titre proposé est la plupart du temps issu d'un texte d'ancre pointant sur la page en question.

Il est donc clair que ces pages ne sont pas crawlées ni analysées par les moteurs de recherche. La véritable question est en revanche l'intérêt de les faire apparaître dans les résultats de recherche au vu du faible intérêt qu'elles représentent (comme content is king, difficile de briguer le trône quand il n'y a pas de "content" !!). Il me semble me souvenir que Google avait indiqué, il y a quelques années de cela, que ces URL apparaissaient de façon transitoire, entre le moment où Google les a détectées (via un lien vers elles) et celui où il s'aperçoit qu'elles sont interdites de crawl par un robots.txt.

Ce qui ne semble plus valable puisque Google affiche désormais un message explicite à propos du robots.txt. Dans ce cas, pourquoi ne pas les désindexer purement et simplement ??

Commentaires : 16
  1. annuaire Français 5 septembre 2012 at 12 h 51 min

    Je me suis posé la même question, d'autant qu'il me semble simple de procéder a l'inverse lors d'un suivis de lien, c'est a dire de faire sonder au robot le cas possible d'un blocage par fichier robots.txt ou pas, et d'indexer le lien ou pas en fonction.

    le probleme, c'est que google tombe sur un lien contenant un login ou mot de passe, ou des informations privées, et que du coup, celles-ci soient publiées.

    Cette annonce confirme que le robots de Google fait plusieurs passes pour analyser un site, mais cela, on le savait déjà.

  2. David Cohen @dwynot 5 septembre 2012 at 13 h 04 min

    Son intérêt doit être de tout montrer, sans doute
    mais alors, s'il trouve un doc sur DRIVE, il met le lien (protégé mais montrant l'existence tout de meme) ????

    Notre intérêt est de ne rien mettre en ligne si on veut le cacher. (et je ne suis pas sûr d'avoir respecté cette rêgle).
    Nos pratiques CLOUDY seraient alors un vrai danger pour nous.

    David

  3. David Cohen @dwynot 5 septembre 2012 at 13 h 08 min

    Google ne met pas ses propres DOCS à l'abri
    ou alors il nous donne des vieux os à ronger
    Merci à @5eg

    https://twitter.com/5eg/statuses/242960778796355584

    David

  4. Comparateur Mutuelle Santé 5 septembre 2012 at 15 h 44 min

    Je suis pour la non indexation radicale de toutes les pages qui ne sont pas d'une qualité (de contenu) suffisante : d'ailleurs, mieux vaut se concentrer sur l'obtention de (très) bons résultats sur qq pages clés que de viser trop large. Allez, j'entends déjà les fans de la longue traîne hurler à la mort...

  5. François-Olivier 5 septembre 2012 at 17 h 47 min

    Bonjour,

    Tu dis qu'il est "Il est donc clair que ces pages ne sont pas crawlées ni analysées par les moteurs de recherche." As tu des preuves et fais des tests pour être aussi catégorique ?
    Pas présentée est une chose, pas crawlée s'en est une autre.

  6. olivier@abondance.com 6 septembre 2012 at 8 h 11 min

    @ François-Olivier : oui nouveaux tests en cours... Et comme j'ai aussi reçu pas mal d'infos à ce sujet de la part de Google (comment le moteur prend en compte le robots.txt), il faut s'attendre à un nouvel article sur ce sujet d'ici peu de temps sur Abondance. 🙂
    cdt

    • Mutuelle santé 26 octobre 2012 at 12 h 34 min

      On attend vivement la suite de cet article.

      Mélanie

  7. tutoriel référencement 6 septembre 2012 at 9 h 24 min

    Je crois que cet article fais suite à l'article de Daniel Roch sur SEOmix.

    Donc Google ne crawl pas ces pages mais les affiche dans ces résultats. Bizarre ...

  8. Christophe 6 septembre 2012 at 12 h 43 min

    Google devrait faire attention à ses propres produits car cette absence de description n'est pas du meilleur effet au niveau marketing. Exemple sur une recherche "Google Drive", le premier résultat est :

    Google Drive - Drive - Google
    https://drive.google.com/start
    La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus

    Mais dans ce cas, c'est quand même mieux d'avoir un résultat plutôt que pas de résultat, donc pour moi la balance penche du côté de l'affichage même partiel lorsque la page est bloquée par un robots.txt

  9. Guillaume 6 septembre 2012 at 17 h 16 min

    Cela signifie que si l'on veut cacher une page à Google et donc aux internautes, le robots.txt ne sert plus à grand chose... Mieux vaut un accès sécurisé par login/mot de passe ! C'est un peu comme si Google disait "Regardez cette page à laquelle on m'a interdit l'accès"

  10. Mathieu 11 septembre 2012 at 11 h 58 min

    Bonjour,

    merci Olivier pour cette info.

    La page n'est pas indexée, mail l'URL l'est en quelque sorte ?
    Comment sont stockées ces URL bloquées, ce n'est pas l'index, c'est l’ordonnanceur ? Ce je comprends mal, c'est que les SERP sont une vue de l'index...?
    Merci de vos lumières.

  11. novia-sante.fr 11 octobre 2012 at 23 h 12 min

    Olivier,

    Ne pensez vous pas qu'il y a un bug du moteur de recherche ? Cela me surprend qu'ils laissent trainer ce type d'erreur

  12. bidule16 16 novembre 2012 at 16 h 21 min

    Bonjour,

    J'ai mis en ligne mon site via WIX il y a 5 jours et je ne vois toujours pas le descriptif de mon site dans google. Quand je rentre le nom de mon site.com dans Google, j'ai exactement ce message d'erreur :
    pas accessible à cause du fichier robots.txt de ce site

    Que faire pour que Google n'interdise pas la description de mon site et qu'il soit pris en compte dans les moteurs ?
    merci pour vos lumières !

    • Robert 17 novembre 2012 at 14 h 27 min

      Google recommande d'utiliser la méta balise noindex plutôt que le fichier robots.text pour éviter le problème

  13. Robert 17 novembre 2012 at 12 h 20 min

    Les pages interdites d'indexation par le robots.text sont bien repérées comme telles par Google et figurent dans les réponses à des requêtes avec le message signalant le blocage du contenu.
    On peut y accéder en cliquant sur le lien qui apparaît clairement avec son URL!!...Elles sont donc indexées chez Google et accessibles à partir des serp
    Ces liens vers des pages que l'on souhaite éliminer de l'index, pour éviter par exemple qu'elles viennent concurrencer des pages plus pertinentes, subsistent dans les SERP et le blocage est donc partiellement inefficace.
    Ce n'est pas par ce que le "snippet" a été remplacé par le message d'information que l'on évitera le fait qu'un internaute clique sur le lien apparent en clair et actif.
    Google reconnait lui-même que si un lien provenant d'un autre site pointe vers une page "bloquée", le lien peut apparaître dans les SERP avec probablement le texte d'ancre comme description..
    Si une page reçoit beaucoup de liens de sites extérieurs avec des textes d'ancre variés, on retrouvera dans les serp plusieurs liens vers cette page "bloquée" à avec plusieurs descriptions
    En conclusion, les contenus complets des pages ne sont peut-être pas indexés et ne servent peut-être pas à Google pour ses analyses de positionnement, mais les url "bloquées" sont bien là dans les serp et accessibles depuis les serp. Le "blocage" est bien partiel.

  14. convertic 20 novembre 2012 at 12 h 44 min

    @ François-Olivier @Olivier les pages sont crawlées puisque le title (exact) de la page bloqué apparaît dans les SERP ...

Un site du Réseau Abondance | Olivier Andrieu | Contact | Publicité sur le site