Google n'arrive pas à lire le fichier robots.txt d'un site dans 26% des cas

Google n’arrive pas à lire le fichier robots.txt d’un site dans 26% des cas

Olivier Andrieu / 14 Nov 2019 à 07h00

Temps de lecture : 2 minutes

Partagez l'article

Lorsque les robots de Google tente de crawler un site web, ils vont au préalable lire le fichier robots.txt pour voir les zones du site qui leur sont interdites. Or, Google a dernièrement indiqué que dans un quart des cas (ce qui est énorme), il n'arrivait pas à lire ce fichier alors qu'il existait pourtant. Résultat : aucun crawl ne s'effectue sur le site...

Lors du Google Webmaster Conference Product Summit qui s'est tenu dernièrement à Mountain View, Google a fourni une information étonnante : en effet, si dans 69% des cas, Googlebot traite de façon "propre" le fichier robots.txt d'un site web (code 200 : le fichier existe et est lisible ou code 404 : le fichier n'existe pas), dans 26% des cas le robot n'arrive pas à lire ce fichier alors qu'il existe bel et bien, ce qui est énorme. Cela peut venir de problèmes de droit d'accès (erreur 403 par exemple) ou autre.

Or, la conséquence de ce type de problème est que, le robot ne sachant pas ce qu'il doit faire, le crawl du site ne se fera pas. Une conséquence donc plus que funeste en termes de SEO !

N'oubliez donc pas de bien vérifier, lorsque vous créez un site ou que vous intervenez sur ce dernier, si le fichier robots.txt renvoie un code 200, afin qu'il soit accessible par les moteurs. Ou ne pas créer ce fichier (un code 404 sera alors renvoyé), et votre source d'informations sera alors en "opération portes ouvertes" pour les moteurs. Mais est-ce réellement ce que vous désirez ?

Seriously? One out of four times googlebot cannot reach a site’s robots.txt? 🤯 then they won’t crawl the entire site!! #gwcps pic.twitter.com/wC49yC40zI
— Raffaele Asquer (@raffasquer) November 4, 2019

Tweet reprenant l'une des slides d'une conférence Google. Source de l'image : Twitter

Google n’arrive pas à lire le fichier robots.txt d’un site dans 26% des cas

Articles complémentaires :

Fichier robots.txt : plus besoin de le placer sur le domaine racine !

Goossips SEO : fichier robots.txt

Goossips SEO : URL canonique, robots.txt, X-RateLimit

Fichier LLMs.txt : pas encore adopté, déjà abandonné ?

LLMs.txt : le fichier que les IA ne veulent pas que vous connaissiez