> > Google ne crawle pas votre site si votre fichier robots.txt n'est pas disponible

Google ne crawle pas votre site si votre fichier robots.txt n'est pas disponible


Google ne crawle pas votre site si votre fichier robots.txt n'est pas disponible
4.67 (93.33%) 3 votes

Googlebot

Un googler a indiqué sur un forum que, si le robot du moteur avait des soucis pour lire votre fichier robots.txt, le crawl du site s'arrêtait instantanément...

Une information importante, relayée par le site Search Engine Roundtable a été donnée par un googler du nom de Eric Kuan sur un forum d'aide aux webmasters : si votre site dispose d'un fichier robots.txt, que Google le sait et qu'il n'arrive pas à le lire (en d'autres termes, si le code HTTP renvoyé n'est ni 200 ni 404), le robot arrêtera de crawler le site pour éviter de récupérer des pages qu'il ne devrait pas indexer :

If Google is having trouble crawling your robots.txt file, it will stop crawling the rest of your site to prevent it from crawling pages that have been blocked by the robots.txt file. If this isn't happening frequently, then it's probably a one off issue you won't need to worry about. If it's happening frequently or if you're worried, you should consider contacting your hosting or service provider to see if they encountered any issues on the date that you saw the crawl error.

A vous, donc, de vérifier que votre fichier, s'il existe, est bien accessible et renvoie un code 200. S'il n'existe pas (code 404), votre site sera alors en "journées portes ouvertes" pour les robots, sans problème spécifique. Dans les autres cas, un action de votre part sera sans doute nécessaire...

robot spider

Source de l'image : DR

Commentaires : 13
  1. Sebastien 6 janvier 2014 at 14 h 34 min

    En fait, ce n'est pas nouveau. C'est écrit noir sur blanc sur le suppport de Google, depuis au moins deux ans : https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=fr

    J'adore relire les specs de temps en temps, on apprend des petits trucs.

    On apprend ainsi que AdsBot-Google (pour les landing AdWords) ne respecte pas toutes les directives de robots.txt ...

  2. Marc, Annuaire Français 6 janvier 2014 at 16 h 50 min

    Sur le nouveau moteur de recherche Premsgo en développement, nous avons rencontré quelques erreurs sur ces fichiers importants. Parmi celles-ci, le = qui remplace les deux points ":" … nous avons implémenté quelques erreurs répétitives, mais certaines ne sont pas gérables, comme les directives doubles (ex : nofollow : /dir1 + /dir2 etc …).

    Dans ces cas rares, le site n'est pas indexé si :
    - l'algo ne comprend pas une ligne
    - si la le fichier est une page html ou une liste de liens (plus fréquent que l'on ne le pense).
    - le code http renvoie une redirection

    Nous avons prévu d'envoyer un courriel si le robot rencontre une difficulté.

  3. ABITASUD 7 janvier 2014 at 0 h 57 min

    Possible.....probablement qu'un site internet sans fichier robots.txt et sitemap rencontrera des problèmes d'indexation...

  4. olivier@abondance.com 7 janvier 2014 at 9 h 06 min

    @Abitasud : je vous rassure, un site sans robots.txt ni Sitemap XML n'aura pas obligatoirement des problèmes d'indexation si sa structure et son arborescence sont bien faites.

  5. Mon poêle à pellet.com 7 janvier 2014 at 15 h 23 min

    Merci pour cet article, mais qui me laisse un peu sur ma faim.

    Comment remédier à ce problème ?

    Les solutions sont elles faciles à mettre en œuvre ?

    Merci et bonne année

  6. olivier@abondance.com 7 janvier 2014 at 15 h 25 min

    @ Mon poêle à pellet.com : quel problème en fait ? s'il y a un code 200 ou 404 qui est renvoyé, il n'y a pas de problème...
    cdt

  7. Ordibug 8 janvier 2014 at 12 h 39 min

    Merci Olivier de relayer l'info, qui est beaucoup plus importante qu'il n'y paraît. Pourquoi ?

    Tout simplement parce qu'il va falloir surveiller ce petit fichier robots.txt qui risque d'être la cible d'attaques de NSEO (par exemple en faisant une redirection 301 ou 302 lorsque ce fichier est demandé par un bot, via du cloaking...)
    Donc, information à prendre très au sérieux...

  8. Lionel - Yooda 16 janvier 2014 at 11 h 07 min

    Salut Olivier;
    Ton titre me semble inciter à une mauvaise interprétation. Ce n'est pas l'absence de robots.txt qui est pointée, mais un robots.txt cassé, non-interprétable.
    Pas de robots.txt => j'ai le droit de tout crawler
    Robots.txt incompréhensible => stop du crawl.

    Bonne journée

  9. olivier@abondance.com 16 janvier 2014 at 11 h 09 min

    @ Lionel : oui, le terme de "disponibilité" est ambigü. En même temps c'est bien ce que dit l'article 🙂

  10. Rakabulle 28 janvier 2014 at 1 h 30 min

    C'est normal si le fichiers robots.txt visible dans Google Webmaster Tools n'est pas le même que celui du site ? savez-vous combien de temps prend google pour identifier les modifications du fichier robots.txt ?

  11. Campingdispo 22 février 2014 at 12 h 50 min

    Bonjour,

    Merci pour toute ces petites précisions très intéressantes. QUESTION: Peut-on indiquer au robot.txt une requête pour rendre tous les liens sortants en "nofollow" ? Je connais la balise Méta et le lien seul et je n'ai pas trouvé sur le net quoi mettre dans robots.txt

  12. eroll 3 mai 2014 at 5 h 10 min

    Bonjour,

    Pour ce qui est d'un domaine en http, les problèmes de ce fichier sont assez rare mais
    dans le cadre d'un Robot.txt pour le HTTPS comment Google arrive à voir ce fichier ? (il arrive que le domaine soit indexé en https et de fait pour éviter l'indexation il faut le préciser dans un nouveau fichier dédié au https).

    Merci d'avance pour vos réponses ...

  13. marla 9 mai 2014 at 13 h 07 min

    C'est normal si le fichiers robots.txt visible dans Google Webmaster Tools n'est pas le même que celui du site ? savez-vous combien de temps prend google pour identifier les modifications du fichier robots.txt ?

Un site du Réseau Abondance | Olivier Andrieu | Contact | Publicité sur le site