> > Google signale lorsqu'une description est bloquée par un fichier robots.txt

Google signale lorsqu'une description est bloquée par un fichier robots.txt


Notez cet article

local

Google affiche dorénavant un message d'information lorsqu'un lien vers une page interdite de crawl est proposée dans ses résultats...

Le site Search Engine Land a constaté que, dans les SERP de Google, un nouveau message "A description for this result is not available because of this site’s robots.txt – learn more" (ou, en français : "La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus") s'affichait dans le "snippet" (texte de présentation de la page) lorsque celle-ci était bloquée par un fichier robots.txt. En effet, si une page est ainsi interdite au crawl par Googlebot, elle peut quand même être présente dans les résultats de Google (même si elle n'est pas crawlée) du fait de liens vers elle depuis d'autres pages web.

Auparavant, ces pages étaient indiquées avec l'URL à la place du titre (la plupart du temps) et sans description. La nouvelle mention fournit donc une information supplémentaire à l'utilisateur du moteur (avec un lien vers l'aide en ligne sur la création et l'utilisation d'un fichier robots.txt)...

Google description bloquee robots.txt
Source de l'image : Search Engine Land

Commentaires : 13
  1. LAURENT BOUTALBI 20 août 2012 at 12 h 06 min

    Bonjour,

    En vérifiant le fichier robots.txt du site http://www.seroundtable.com/robots.txt, on s'aperçoit effectivement qu'il empêche l'affichage du contenu de l'URL http://www.seroundtable.com/boyfriend-spammed-12909.html.

    Cependant, la fonctionnalité de Google est utile si on fait attention à ne pas rendre indexable des URL dupliquées qui, elles, ne figurent pas dans les exceptions du fichier robots.txt.

    Dans cet exemple, en faisant la requête ''site:seroundtable.com/boyfriend-spammed-12909.html'' dans Google, on se rend compte que 4 URL sont indexées dont 2 donnent accès au contenu de la page en question à partir du moteur de recherche.

    La question est donc de savoir quelle URL Google va proposer à terme vu qu'une de ces URL qui donne accès au contenu a un presque optimisé et pourrait éventuellement recevoir plus de backlinks ce qui renforcerait son autorité.

    Amitiés.

  2. Annuaire Français 20 août 2012 at 14 h 20 min

    Très curieuse option de Google, à savoir sur le plan juridique ce que ca vaut, mais Google s'autorise donc a crawler "toutes" les pages d'un site? N'est-ce pas contraire aux recommandations w3c (http://www.w3.org/TR/html4/appendix/notes.html#h-B.4.1)?
    D'autant que pour certains sites, cela peut poser de reels problèmes de sécurité...

    Il ne reste plus qu'a Google et aux autres sites d'enlever ce fichier robots.txt .
    Celui de google (http://www.google.fr/robots.txt ) est conséquent, et celui de Facebook ou Twitter n'aurait donc aucune raison d'être? Affaire sûrement à suivre ...

  3. olivier@abondance.com 20 août 2012 at 14 h 26 min

    @ Annuaire Français : non justement, Google indique par ce biais qu'il n'a pas pu crawler la page en question et donc y relever un snippet pertinent...

  4. Lien Optionnel 21 août 2012 at 0 h 01 min

    @Annuaire Français : Google n'est pas supposé crawler les pages interdites d'accès par le robot.txt, c'est précisé dans l'article, je cite :

    "En effet, si une page est ainsi interdite au crawl par Googlebot, elle peut quand même être présente dans les résultats de Google (même si elle n'est pas crawlée) du fait de liens vers elle depuis d'autres pages web. "

    S'il trouve un lien pointant vers une page à l'accès interdit, il référence la destination sans en garantir la teneur.

  5. loran750 24 août 2012 at 21 h 42 min

    Hum.

    En même temps, je me pose une question : si on a un robots.txt qui interdit une page, et sur cette page, un "nofollow, noindex", qui a la priorité ?

    Parce que ce qui m'intéresse, c'est justement de NE PAS avoir de page listées dans Google (principalement, celles qui sont en DC, celles qui ont des paramètres, ...).

    Même question pour une page avec une méta "nofollow, index" et "follow, noindex" (si le résultat est différent)

    Intéressé par une réponse.

  6. olivier@abondance.com 26 août 2012 at 19 h 52 min

    @ loran750 : Sur le principe, le robots.txt et la balise meta "robots" noindex sont similaires et doivent donner le même résultats. Cependant, le fichier robots.txt interdit le crawl, alors que pour lire la balise meta "robots", Google doit déjà crawler la page...
    Par expérience, je consille toujours le robots.txt plutôt que la balise meta "robots" pour ma part...

  7. Paris Annonces 19 septembre 2012 at 19 h 36 min

    Bonjour,

    Merci pour cet article. J'ai constaté que les pages principales de mon site ont été mises par erreur dans le fichier Robots.txt et s'affichent sur Google avec le snippet "La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site..."

    Après correction du fichier Robots.txt, il y a 10 jours, ce snippet s'affiche toujours.

    - Est-ce que Google prends en compte les corrections sur Robots.txt, si oui combien de temps faut-il attendre pour que tout revienne à la normale ?

    - Peut-il sanctionner une page affichée dans Robots.txt puis retirée ?

  8. olivier@abondance.com 20 septembre 2012 at 7 h 38 min

    @ Paris Annonces : Pour la 1ere question, la partie "Explorer comme Google" des Webmaster Tools devrait vous aider. Pour la seconde, c'est non, il n'y a pas de raisons que Google pénalise ainsi une page ou un site.

  9. Paris Annonces 20 septembre 2012 at 22 h 25 min

    Merci de votre réponse. J'ai vérifié les pages dans la partie "Explorer comme Google" des Webmaster Tools, cependant je n'ai trouvé aucune information pouvant m'aider.

    J'ai constaté que pour Googlebot il n'y a aucune différence entre les pages affichant le snippet "La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site..." et les autres.

  10. Valais Web 8 octobre 2012 at 15 h 21 min

    Bonjour,

    Merci pour votre article très intéressant.

    Est-ce que la multiplication des résultats de recherche via "site:www.monwebsite.com" avec pour résultat "La description de ce résultat n'est pas accessible..." prétérite le positionnement de mon site dans les pages de résultats de Google ?

    Merci pour votre réponse.

  11. olivier@abondance.com 8 octobre 2012 at 21 h 32 min
  12. Mia 6 mai 2014 at 10 h 09 min

    Bonjour et merci pour cet article,
    J'ai ce souci avec le site http://www.crucerosnet.com
    Le message d'erreur apparaît même pour la page d'accueil (et d'autres pages donc)
    Pourtant après vérification de la "crawlabilité" de la page sous Google webmaster tools aucun problème ne remonte.
    Je ne sais plus quelle piste creuser.
    Merci d'avance

  13. olivier@abondance.com 6 mai 2014 at 10 h 31 min

    @Mia : essayez dans un premier temps d'enlever l'espace entre "Disallow" et ":" dans votre fichier robots.txt : "Disallow : /comp_2/crucero/cruceros/costa-croisieres/" > "Disallow: /comp_2/crucero/cruceros/costa-croisieres/"
    Et ce sur toutes les lignes...
    Cdt

Un site du Réseau Abondance | Olivier Andrieu | Contact | Publicité sur le site