> > Définition : le Budget Crawl, c'est quoi ?

Définition : le Budget Crawl, c'est quoi ?



 
Définition : le Budget Crawl, c'est quoi ?
5 (100%) 3 votes

Définition : le Budget Crawl, c'est quoi ?

Lorsqu'il explore (crawle) un site, le robot de Google se donne certaines limites en termes de nombre de pages à visiter et sauvegarder, notamment pour les sources d'informations proposant de nombreuses pages. Il s'agit de la notion de Budget Crawl, souvent évoquée en SEO, que nous définissons ici...

Qu'est-ce que le Budget Crawl ? Voici notre définition :

Le Budget Crawl (crawl budget en anglais) représente les limites en termes de nombre de pages que Googlebot (le robot de Google) va crawler sur un site web en tenant compte de plusieurs critères : taille du site, vitesse d'exploration, fréquence de mise à jour, qualité du contenu et nombre de clics.

En début d'année, Google a mis en ligne un post sur son blog pour webmasters expliquant sa vision du budget crawl. Globalement, ce concept touche avant tout les sites qui proposent plusieurs milliers de pages au moins (les "petits" sites n'ont généralement pas de problèmes à ce niveau).

Googlebot, le robot de Google, n'explore pas en une seule passe TOUTES les pages d'un site web. Il vient, revient, et essaie à chaque visite d'explorer au mieux les pages d'un site web en tenant compte de plusieurs critères importants :
- Les capacités du serveur : si celui-ci répond lentement, le robot explorera moins vite.
- La profondeur : plus il y a de clics pour atteindre une page depuis l'accueil, plus le crawl est aléatoire.
- La fréquence de mise à jour : un site souvent mis à jour sera plus souvent crawlé qu'un site statique.
- Qualité d'un contenu estimée par le moteur. Un site proposant du contenu de très bonne qualité sera mieux crawlé qu'un site lambda.

Le budget crawl représente donc plus un nombre de pages maximum qu'un délai temporel, limites que Googlebot se donne pour explorer un site. Rien ne dit donc qu'un site soit crawlé de façon exhaustive par le spider, en fonction des critères listés ci-dessus.

Les spiders de Google construisent les index du moteur
Googlebot, un spider de Google (allégorie 🙂 )... Source de l'image : DR

Commentaires : 5
  1. Marc 5 avril 2017 at 10 h 54 min

    Bonjour,

    c'est assez minime de la part de Google comme information. D'autant qu'il y a visiblement derrière une stratégie pour écarter la concurrence, des comparateur en shopping, des annuaires, d'autres grandes sources d'information.

    Les très gros sites sont peu nombreux, c'est vrai que les pages changent peu en général, le crawl est une chose, l'indexation en est une autre. C'est surtout sur le volume d'indexation que Google a fait d'importantes modifications, réduisant de manière drastique le nombre de pages indexées (-40% pour l'Annuaire Français).

    Le critère d'indexation est probablement basé sur le volume de backlink du site, et ceux qui ne trichent pas vis a vis de Google sont désavantagés ... De même, Google n'est pas loyal lorsque certaines pages sont très nettement plus riche que ses propres informations alors que Google écarte quand même...

  2. Anonyme 5 avril 2017 at 18 h 57 min

    Si j'ai bien compris, le nombre des clics a aussi un impact sur le crawl d'une page ?

  3. Clément THERIEZ 5 avril 2017 at 23 h 10 min

    J'ai un Form PHPBB, je vois souvent des bots dessus, est ce que les Forum de discussion sont plus crawler qu'un site web dymamique type wordpress ou même de simple pages HTML avec mise en forme CSS ? Merci

    • Olivier Andrieu 6 avril 2017 at 8 h 09 min

      Je ne pense pas, non. La nature du site n'est pas, pour moi, un critère qui influe sur le crawl. Mais il y a bien d'autres critères...

Un site du Réseau Abondance | Olivier Andrieu | Contact | Publicité sur le site