Dans un guide publié sur Search Engine Journal, Jes Scholz fait le point sur le crawl. On ne parle évidemment pas ici du style de nage, mais d’exploration et d’indexation des pages d'un site ! Comment parvenir à optimiser ce point crucial pour le référencement d’un site ? Des réponses dans cet article !

Ce qu’il faut retenir :

  • Le crawl est crucial pour le positionnement d’un site, mais être « juste » exploré ne suffit pas. Il faut favoriser une exploration rapide, au bon moment.
  • Les solutions fournies par les moteurs n'étant pas toujours suffisantes, il est également important d’optimiser les paramètres liés au site.
  • Il n'est pas forcément utile de viser un grand nombre d’URL crawlées si celles-ci ne sont pas pertinentes. La qualité doit primer sur la quantité.

Comment fonctionne le crawl ?

En guise d’introduction, Jes Scholz nous rappelle le principe du crawl et pourquoi il est si important pour le référencement d’un site. Réalisé par des robots d’exploration ou des spiders, le crawl permet d’explorer du contenu présent sur le web, qu’il s’agisse de texte, d’image, de vidéos ou d’autres types de fichiers, en passant d’URL en URL grâce aux liens.

Les robots ne se comportent pas forcément de la même manière selon les URL qu’ils rencontrent. L’autrice en liste plusieurs catégories :

  • Les nouvelles URL, inconnues des moteurs de recherche.
  • Les URL connues sans indication d’exploration, périodiquement revisitées afin de déterminer si des changements ont été apportés au contenu et si l’index a besoin d’être mis à jour.
  • Les URL connues ayant été mises à jour et qui donnent des indications claires, qui seront de nouveau explorées et indexées, au moyen du lastmod.
  • Les URL connues n’ayant pas été mises à jour et qui donnent des indications claires, qui ne doivent pas être ni explorées ni réindexées, via un HTTP 304 Not Modified par exemple.
  • Les URL inaccessibles, qui ne peuvent ou ne doivent pas être suivies, avec une balise nofollow ou un formulaire de connexion.
  • Les URL désavouées, bloquées par le fichier robots.txt par exemple, que les robots ne peuvent pas explorer.

Les URL qui peuvent ou doivent être explorées sont placées dans une file d’attente et se voient attribuer un niveau de priorité, qui dépend du type de lien, mais aussi du fonctionnement de l’algorithme propre à chaque robot et chaque moteur.

Pourquoi le crawl est important pour le positionnement ?

Jes Scholz nous rappelle qu’il est important qu’un site soit exploré pour qu’il puisse être classé dans les pages de résultats. Mais ce n’est pas suffisant. En effet, en fonction du type de contenu, la notion de rapidité peut tout changer. Certains contenus doivent faire l’objet d’une exploration rapide, sous peine de ne pas être visibles à temps pour les internautes. On pense par exemple aux actualités liées à des événements ou aux produits qui peuvent se retrouver en rupture de stock en quelques jours. Dans tous les cas, une exploration rapide reste bénéfique.

La question du Budget Crawl et de l’efficacité du crawl

L’autrice du guide nous rappelle que, contrairement à une croyance populaire, Google n’a pas l’intention de parcourir l’ensemble du web, encore moins de l’indexer. Cela signifie que l’exploration d’une page n’est en aucun cas garantie. D’ailleurs, la plupart des sites comportent des pages qui n’ont jamais été explorées par Googlebot.

Les SEO sont très attachés à la notion de Budget Crawl qui renvoie au nombre d’URL d’un site qu’un robot peut et va explorer dans un laps de temps précis. Un obsession renforcée par les statistiques sur l’exploration disponibles dans le Search Console de Google qui indiquent le nombre total de requêtes de crawl. Cependant, pour Jes Sholz, l’idée selon laquelle un plus grand nombre d’URL explorées serait intrinsèquement meilleur est totalement erronée. En revanche, cela peut augmenter la charge qui pèse sur les serveurs... L’idée est donc de privilégier la qualité à la quantité avec des indexations qui apportent une vraie valeur ajoutée pour le référencement du site.

Pour améliorer l’efficacité du crawl, il faut réduire le temps qui s’écoule entre la publication d’une page ou sa mise à jour (dès lors qu’elle est pertinente) et la prochaine visite de Googlebot. Pour évaluer cette efficacité, il est possible d'extraire la valeur de la date de création ou de mise à jour de la base de données et la comparer à l’horodatage de la prochaine exploration d’URL par Googlebot. Cette information est présente dans les fichiers log. Si ce n’est pas possible, l’autrice conseille de se servir de la balise lastmod présente dans le sitemap et d’interroger périodiquement les URL concernées avec l’API d’inspection des URL de la Search Console.

L’appui des moteurs de recherche

Soucieux d’améliorer la pertinence de leurs résultats et leur impact environnemental, les moteurs de recherche ont tout intérêt à aider les sites à optimiser l’exploration et l’indexation des pages. Jes Scholz mentionne deux API incontournables destinées à améliorer le crawl des sites : IndexNow et Google Indexing API.

Passons rapidement sur la première API, IndexNow, qui est prise en charge par Bing, Yandex, mais pas par Google, pour nous concentrer sur Google Indexing API. Bien que Google ait précisé à plusieurs reprises que cette API pouvait seulement être utilisée pour crawler des pages contenant des balises d’offres d’emploi ou de diffusion d’événements, il a été prouvé que cette affirmation était fausse, selon les tests réalisés. En effet, en soumettant des URL non conformes à Google Indexing API, on constate une augmentation significative de l’exploration des URL, mais cela n’a en revanche aucun impact sur leur indexation.

Dernière possibilité : soumettre manuellement des URL dans Google Search Console pour un traitement dans l’heure qui suit. Un outil malheureusement limité à 10 URL toutes les 24 heures. C’est peu, mais c’est toujours bon à prendre.

5 techniques pour améliorer le crawl de son site

Dans la dernière partie de son guide, Jes Scholz nous dévoile cinq astuces pour améliorer l’efficacité de son crawl :

  • Veillez à ce que le serveur soit performant, en capacité de gérer la quantité d’URL que Googlebot souhaite explorer, sans que cela n’ait d’impact négatif sur le temps de réponse. L’autrice conseille ainsi de vérifier le statut de l’hôte dans la Search Console. Ce dernier doit être vert, le pourcentage d’erreurs 5xx doit être inférieur à 1 % et le temps de réponse du serveur inférieur à 300 millisecondes.
  • Supprimez le contenu de mauvaise qualité, obsolète ou dupliqué pour permettre aux robots d’explorer les bons contenus. Pour faire un petit ménage de printemps rapidement, rendez-vous sur la Search Console pour identifier l’exclusion « Crawled – currently not indexed ». En cas de problème identifié, il s’agit alors d’utiliser une redirection 301 ou une 404, en fonction du cas.
  • Indiquez à Googlebot ce qu’il ne doit pas explorer. Selon l’autrice, les liens rel=canonical et les balises noindex sont efficaces, mais peuvent s’avérer coûteux en termes d’exploration. Si cela est préférable, elle conseille de bloquer l’exploration avec disallow dans le robots.txt. Elle préconise également de bloquer les itinéraires « non pertinents » pour le SEO comme les pages de paramètres, les pages fonctionnelles (ex : panier d’achats), les espaces infinis, les éléments sans importance (images, scripts, css) et les URL d’API.
  • Indiquez à Googlebot ce qu’il doit explorer et quand le faire. Pour ce faire, le mieux est de s’appuyer sur un sitemap XML bien optimisé, c’est-à-dire mis à jour de façon dynamique avec un délai minimal et indiquant la date de la dernière modification significative.
  • Favorisez l’exploration avec des liens internes. Même si le sitemap et les liens externes sont importants, ils ne sont pas suffisants. En guise de dernier conseil, Jes Scholz propose donc de soigner les liens internes en portant une attention toute particulière à la navigation sur mobile, aux fils d’Ariane, aux filtres rapides et aux contenus connexes en veillant à ce qu’aucun d’entre eux ne dépende du Javascript.