Goossips : Temps passé sur la page, Code 5xx sur robots.txt, Interdiction de crawl

Olivier Andrieu / 19 Déc 2022 à 08h16

Temps de lecture : 3 minutes

Partagez l'article

Goossips : Temps passé sur la page, Code 5xx sur robots.txt, Interdiction de crawl

Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Le temps passé sur une page par un internaute est-il un critère de pertinence du moteur ? Que se passe-t-il si le fichier robots.txt renvoie un message d'erreur de type 500 ou 503 ? Interdire le crawl sur un site web est-il la solution la plus rapide pour le désindexer ?

Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, forums, conférences, etc.). Donc « gossips » (rumeur) + Google = « Goossips » 🙂

La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.

Temps passé sur la page

John Mueller a répété une fois de plus sur Twitter que le temps passé par un internaute à lire une page web n'était pas un critère de pertinence du moteur et n'était pas pris en compte par l'algorithme, tout comme les critères de comportement en général (taux de clic, taux de rebond, dwell time, etc.)...

Source : Search Engine Roundtable

Taux de fiabilité :

Ça fait des années et des années que Google le dit, et nous aussi. Ce serait d'ailleurs assez stupide de prendre en compte ce type de critères dans l'algorithme, puisqu'ils ne sont en rien des indices de la valeur et de la pertinence d'un contenu. Du simple bon sens...

Code 5xx sur le robots.txt

Gary Illyes a expliqué sur LinkedIn que si votre fichier robots.txt renvoie un code 5xx (de type 500 ou 503) pendant un certain temps, cela peut avoir une conséquence désastreuse avec la suppression à terme du site complet de l'index...

Source : Search Engine Roundtable

Taux de fiabilité :

Il est capital de toujours vérifier qu'un fichier robots.txt existe sur votre site web et qu'il répond avec un code 200 (et que son contenu soit bien sûr valide et pertinent). Toute autre situation peut être problématique.

Interdiction de crawl

John Mueller a indiqué sur Reddit que le simple fait d'interdire le crawl d'un site via le robots.txt (directive Disallow: /) n'était pas la solution la plus rapide pour désindexer un site : « Même si vous interdisez tout crawl, il faudrait un certain temps pour que l'ensemble du site disparaisse, et des éléments comme la page d'accueil resteraient probablement indexés »...

Source : Search Engine Roundtable

Taux de fiabilité :

Effectivement, ce n'est pas la bonne méthode. Voir nos deux vidéos récentes consacrées à ce sujet : ici et là.

Goossips : Temps passé sur la page, Code 5xx sur robots.txt, Interdiction de crawl. Source : Google

2 Commentaires

Nass sur 23 décembre 2022 à 8 h 57 min

Vous pensez vraiment que le Dwell time n’est pas un facteur qui pourrait impacter le classement ?
Pour moi ça peut être un facteur de qualité.
Réponse
- Olivier Andrieu sur 23 décembre 2022 à 9 h 25 min
  
  En tout cas, c’est que Google qu’a clairement dit… 🙂 Et je trouve effectivement cela logique dans leur approche (amélioration de l’algo à moyen terme). Et c’est tellement facilement manipulable…
  Réponse

Laisser un commentaire Annuler la réponse

Goossips : Temps passé sur la page, Code 5xx sur robots.txt, Interdiction de crawl

Articles complémentaires :

Goossips SEO : Budget Crawl et paramètres UTM

Goossips SEO : Crawl budget et liens

Goossips SEO : Googlebot, budget crawl, paramètres URL

Goossips SEO : fichier robots.txt

Goossips SEO : AMP, Crawl, IA, ARIA, Core Web Vitals