Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours. Au programme, cette semaine : limite de 15 Mo de Googlebot, bourrage de mots-clés  et URL exclues par robots.txt.

Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, forums, conférences, etc.). Donc « gossips » (rumeur) + Google = « Goossips » 🙂

La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.

La limite de 15 Mo de Googlebot
Google a ajouté quelques précisions au document d’aide de Googlebot à propos de l’exploration, afin de préciser que la limite de 15 Mo du code HTML crawlé par Googlebot s’appliquait également à chaque sous-ressource individuelle référencée dans le code : les fichiers JavaScript et CSS, entre autre. Gary Illyes a ajouté sur LinkedIn que si vos fichiers Javascript sont plus volumineux (selon lui, c’est possible), c’est une mauvaise nouvelle pour votre indexation sur Google Search.
Source : Search Engine Roundtable
Taux de fiabilité :
La limite de crawl avait déjà été annoncée par Google en juin 2022, passant de 10 à 15 Mo. Si elle continue visiblement d’inquiéter les SEO, sachez que le seuil de 15 Mo est énorme, puisque la taille moyenne d’un fichier HTML est de 30 Ko. Si vos fichiers contiennent beaucoup de Javascript, il peut être intéressant de vérifier la taille de ces ressources, mais il y a de grandes chances pour que vous soyez sous la barre des 15 Mo.

Le bourrage de mots-clés ne rend pas une page inutile
John Mueller a déclaré que le bourrage de mots-clés (keyword stuffing), à lui seul, ne rendait pas une page inutile. D’après lui, Google sait ignorer ce genre de tactique, donc ce n’est certainement pas la seule raison de vos problèmes d’indexation. Cette pratique se faisait beaucoup dans les années 90, donc les moteurs de recherche réussissent à l’ignorer aujourd’hui.
Source : Search Engine Roundtable
Taux de fiabilité :
S’il s’agit d’une pratique que nous ne vous recommandons pas, nous sommes d’accord avec John Mueller. Le keyword stuffing ne devrait pas entraîner de pénalité et encore moins de blacklist.

Les URL exclues dans le robots.txt ne sont pas supprimées tant que les URL ne sont pas retraitées
John Mueller a clarifié la façon dont Google traite les demandes d’exclusion ou de suppression du fichier robots.txt. L’action n’est pas réalisée lorsque Google découvre le changement dans votre fichier, mais une fois que le robots.txt a été traité et que les URL spécifiques concernées sont retraitées individuellement par le moteur de recherche.
Source : Search Engine Roundtable
Taux de fiabilité :
C’est logique et cela explique pourquoi ces modifications prennent généralement un certain temps. Certaines URL peuvent prendre plusieurs mois pour être retraitées.