Goossips : Temps passé sur la page, Code 5xx sur robots.txt, Interdiction de crawl

Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Le temps passé sur une page par un internaute est-il un critère de pertinence du moteur ? Que se passe-t-il si le fichier robots.txt renvoie un message d'erreur de type 500 ou 503 ? Interdire le crawl sur un site web est-il la solution la plus rapide pour le désindexer ?

Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, forums, conférences, etc.). Donc « gossips » (rumeur) + Google = « Goossips » 🙂

La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.

  

Temps passé sur la page
John Mueller a répété une fois de plus sur Twitter que le temps passé par un internaute à lire une page web n'était pas un critère de pertinence du moteur et n'était pas pris en compte par l'algorithme, tout comme les critères de comportement en général (taux de clic, taux de rebond, dwell time, etc.)...
Source : Search Engine Roundtable
Taux de fiabilité :
Ça fait des années et des années que Google le dit, et nous aussi. Ce serait d'ailleurs assez stupide de prendre en compte ce type de critères dans l'algorithme, puisqu'ils ne sont en rien des indices de la valeur et de la pertinence d'un contenu. Du simple bon sens...

  

Code 5xx sur le robots.txt
Gary Illyes a expliqué sur LinkedIn que si votre fichier robots.txt renvoie un code 5xx (de type 500 ou 503) pendant un certain temps, cela peut avoir une conséquence désastreuse avec la suppression à terme du site complet de l'index...
Source : Search Engine Roundtable
Taux de fiabilité :
Il est capital de toujours vérifier qu'un fichier robots.txt existe sur votre site web et qu'il répond avec un code 200 (et que son contenu soit bien sûr valide et pertinent). Toute autre situation peut être problématique.

  

Interdiction de crawl
John Mueller a indiqué sur Reddit que le simple fait d'interdire le crawl d'un site via le robots.txt (directive Disallow: /) n'était pas la solution la plus rapide pour désindexer un site : « Même si vous interdisez tout crawl, il faudrait un certain temps pour que l'ensemble du site disparaisse, et des éléments comme la page d'accueil resteraient probablement indexés »...
Source : Search Engine Roundtable
Taux de fiabilité :
Effectivement, ce n'est pas la bonne méthode. Voir nos deux vidéos récentes consacrées à ce sujet : ici et .

     

Goossips : Temps passé sur la page, Code 5xx sur robots.txt, Interdiction de crawl
Goossips : Temps passé sur la page, Code 5xx sur robots.txt, Interdiction de crawl. Source : Google