De nombreux éditeurs de sites web, notamment récents, en ont fait l'amère expérience : Google n'arrive plus à indexer, voire même juste à crawler bon nombre de pages à l'heure actuelle. Est-ce uniquement un bug temporaire ou un problème plus profond, né d'une volonté de lutte contre le spam et le contenu de faible qualité ? Voici quelques éléments de réponse...

On le sait, Google connait de très gros problèmes d'indexation des pages web depuis de nombreux mois :

  • Plus spécifiquement sur des sites récents (mais pas que).
  • Sur bon nombre de sites français (notamment en .fr), mais pas que.

Sur de nombreux sites donc, soit les pages sont crawlées mais non indexées, soit elles ne sont tout simplement pas crawlées. Dans la Search Console, les URL sont indiquées comme « Exclues », dans le rapport « Couverture », avec les messages « Détectée, actuellement non indexée » lorsqu'elles sont en attente de crawl ou « Explorée, actuellement non indexée » lorsqu'elles sont crawlées et en attente d'indexation. Ce phénomène est devenu suffisamment important pour se rendre compte que ce n'est pas un bug isolé pour un site web donné. C'est une vraie tendance forte du crawl et de l'indexation Google en ce moment.

La qualité des pages en premier critère

De nombreux webmasters m'ont posé des questions à ce sujet ces dernières semaines en m'indiquant l'adresse de leur site qui n'arrivait pas à être visité ou pris en compte par les robots du moteur. Il faut bien dire que, parmi ces sources d'informations, nombreuses étaient celles qui étaient de très faible qualité :

  • Contenus trop courts.
  • Articles émanant d'un site ayant une vision 100% SEO dans sa conception.
  • Articles écrit uniquement pour créer un lien vers une page d'un autre site (depuis une plateforme de vente de liens ou autre).
  • PBN.
  • Etc.

Pour ce type de page, il est normal que Google ait mis en place un algorithme permettant de trier le bon grain de l'ivraie. Il faut l'assumer. Mais pour d'autres pages (et surtout d'autres sites), pourtant tout à fait valables et de bonne qualité, le problème est également et toujours présent.

Des outils tentent de corriger le tir, mais...

Bon nombre d'outils, la plupart utilisant l'API d'indexation de Google, se sont alors mis en place. Je vous engage à lire l'article de Daniel Roch publié cette semaine sur Réacteur, qui les a testés et où il nous dit ce qu'il en pense.

En les utilisant, et même si la situation n'est pas idéale, on arrive cependant à améliorer un peu la situation. Et le fait que ces outils d'indexation forcée fonctionnent (au moins un peu) montre bien l'incohérence totale de Google à ce niveau. En effet :

  • Soit le moteur estime que les contenus en question sont de faible qualité et dans ce cas, il doit refuser leur indexation, quelle que soit la méthode utilisée pour les lui soumettre. Si une page est refusée à l'indexation via les méthodes naturelles (crawl du robot, Sitemap XML, etc.) mais acceptée via l'API, c'est juste du grand n'importe quoi !
  • Soit il les indexe via l'API et à ce moment-là, cela signifie à la fois que la qualité des contenus n'est pas en cause, mais cela démontre aussi son incapacité actuelle à crawler le Web de façon naturelle et efficace.

Il s'agirait donc bien soit d'un bug du moteur et de ses robots, soit d'une faille dans son système de crawl, l'empêchant de crawler de façon propre et efficace les sites web, notamment récents. Un point gravissime, vous en conviendrez, pour un moteur qui se veut leader mondial du domaine !

(Notons ici cependant que certaines URL sont acceptées via les outils de soumission API, mais parfois désindexées par la suite par le moteur).

On peut faire actuellement le constat de la dégénérescence des capacités de crawl depuis plusieurs années : tout d'abord les multiples bugs qui ont jalonné les derniers mois au niveau de l'indexation et maintenant cette impossibilité à crawler et indexer des contenus récents. On peut même dire qu'à l'heure actuelle, Bing indexe bien mieux le Web que son concurrent historique. Qui aurait osé dire cela il y a quelques années ? Il est même beaucoup plus innovant à ce niveau, notamment avec le protocole IndexNow, proposé depuis quelques mois.

Mes conclusions

Qu'en est-il donc aujourd'hui ? Après avoir analysé de nombreux sites ayant du mal à se référencer et fait mes propres tests en internes, voici mes conclusions :

  • Les problèmes actuels sont tellement répandus et incroyables qu'il est impossible que Google ne soit pas au courant de ces soucis. Il doit donc y avoir une explication logique.
  • Google met peut-être en place à l'heure actuelle un système de filtre permettant de n'indexer que le contenu de bonne qualité. Mais c'est un euphémisme que de dire qu'il n'est pas encore au point, notamment avec le contenu récent, qui n'a pas encore proposé au moteur de signaux positifs concernant la qualité du contenu de la page et surtout du site qui les affiche.
  • Si un des critères pour filtrer la qualité des contenus est bien sûr basé sur l'analyse des textes proposés en ligne, il semble indispensable d'obtenir rapidement des liens (backlinks) depuis un site « trusté » par Google (en qui le moteur a une certaine confiance : ancien, n'ayant jamais spammé, ayant une autorité et une légitimité forte dans son domaine, etc.). Chaque fois que nous avons fait un lien depuis un site trusté vers une page web ayant jusque-là du mal à s'indexer, la dite indexation s'est déclenchée comme par miracle dans la journée. Mais sans aucun impact sur l'indexation des autres pages du site-cible, en revanche. En d'autres termes, l'indexation d'une page ne déclenche pas celle des autres.
  • Google tente certainement de créer des pare-feux pour contrer la potentielle invasion des contenus de spam rédigés de façon automatique par des algorithmes de type GTP-3. Si a priori aujourd'hui, le moteur sait distinguer les contenus automatisés des textes rédigés par des humains, qu'en sera-t-il dans quelques mois ou quelques années ? Il est donc tout à fait possible que Google mette en place des algorithmes allant dans ce sens, et s'occupant en premier lieu des pages web ayant un historique permettant d'analyser les signaux. L'incroyable situation actuelle de Google peut-elle signifier que les prochains contenus-cibles qui seront traités seront ceux qui ont été mis en ligne récemment, toujours en attente ? Ils seront alors analysés par l'algorithme qui sera alors à même de faire correctement son travail sur ce type de page ? On peut l'imaginer, sans en être certain, bien évidemment.

Il faut en tout cas espérer que la situation évolue rapidement, car celle-ci ne donne clairement pas une image positive de la firme de Mountain View et de sa capacité à maîtriser son moteur de recherche et la croissance actuelle du Web. Il faut bien avouer que ce n'était jamais le cas il y a quelques années de cela. Mais le Web était différent, et le niveau de spam à traiter le moteur très différent aussi (rappelons que Google découvre 40 milliards de pages de spam chaque jour !, et l'évolution actuelle des méthodes SEO n'y est pas pour rien).

Le moteur est-il dépassé par l'évolution exponentielle du Web et du nombre de pages et d'informations disponibles en ligne, et donc du spam dont il est bombardé ? Ou n'est-ce finalement qu'une péripétie temporaire et une situation qui sera rapidement corrigée par les équipes techniques de Google ? L'avenir proche nous en dira certainement plus à ce sujet… Une chose est sûre en tout cas : la situation actuelle doit absolument évoluer si Google tient à son hégémonie actuelle

 

Exemple-type d'une (petit) site récent voyant de nombreuses pages - pourtant de bonne qualité et sans aucun signe de spam - non crawlées ou indexées.