Crawl Budget : Google nous explique sa vision

Google a mis en ligne un post sur son blog pour webmasters afin d'expliquer ce qu'est selon lui le 'budget crawl' alloué à un site pour l'explorer. Des généralités certes, mais qui ont cependant le mérite d'expliquer les fondamentaux du fonctionnement des spiders comme Googlebot...

Pour analyser un site web et mettre à jour son index, un moteur de recherche utilise des robots (ou agents, spiders, crawlers, etc.) qui vont parcourir toutes les pages d'un site en cliquant sur tous les liens rencontrés, sauvegardant à chaque étape le contenu de la page visitée. Cette indispensable étape d'exploration s'appelle le crawl et elle est effectuée chez Google par son robot qui répond au doux nom de Googlebot.

Dans ce domaine, on parle souvent de "budget crawl" pour caractériser le temps alloué par Google à l'exploration d'un site. Ainsi, un petit site (quelques dizaines de pages) aurait, logiquement, un "budget crawl" beaucoup plus faible que celui d'un site de plusieurs dizaines ou centaines de milliers de pages. Google avait promis qu'il expliquerait la vision qu'il avait de ce budget crawl. C'est chose faite depuis cette nuit avec un post sur son blog pour webmasters (version en anglais ici) à ce sujet.

Le post précise tout d'abord que ces notions ne concernent que les "gros sites" (plus de quelques milliers d'URL). D'autre part, il précise également que si vos nouvelles pages sont indexées par Google dans les 24 heures qui suivent leur publication, vous n'avez pas à vous préoccuper, globalement, de ce type de considération...

La notion de "budget crawl" tient donc compte de plusieurs paramètres :
- La limite de la vitesse d'exploration : Google crawlera de façon plus ou moins assidue en fonction des temps de réponse du serveur, voire de l'envoi de codes d'erreur par ce dernier.
- Le besoin d'exploration : un site statique, peu souvent mis à jour, ne sera pas crawlé souvent. Un site en cours de migration sera beaucoup plus crawlé sur la période changement d'URL. Etc.
- Le budget crawl sera donc définii par le nombre d'URL que Googlebot peut et veut explorer en fonction des deux critères ci-dessus. En cela, il s'agit plus d'un volume de pages qu'un temps ou une période allouée au crawl, ce qui est logique.
- Google répête qu'il est important de ne pas gaspiller les ressources des robots et éviter d'avoir dans son arborescence des pages de faible qualité. Quelques exemples : navigation à facettes et identifiants de session, contenu en double sur le site, pages d'erreurs "soft 404", pages piratées, espaces infinis et proxys, spam, etc. Autant de pages que Googlebot crawle (ou pas) mais qui lui font perdre du temps et le détourne des pages proposant le contenu de meilleure qualité...
- Enfin, Google termine son post en indiquant que la facilité de crawl d'un site n'est pas un critère de pertinence pour les classements obtenus sur le moteur (et que la directive "crawl-delay" dans le fichier robots n'est pas prise en compte). En revanche, un site mieux exploré (crawlé) a plus de chance d'avoir ses meilleures pages analysées par les algorithmes, bien sûr...

Bref, il faut bien le dire, un post assez décevant (on s'attendait quand même à quelque chose d'un peu plus fouillé), qui aligne des généralités bien connues de la plupart des référenceurs. Mais qui a bien sûr le mérite d'expliquer des fondamentaux. C'est déjà ça...

robot spider
Robot ou spider... Source de l'image : DR