Lors de sa phase de crawl, le robot Googlebot doit prendre en compte de nombreuses données et informations : redirections (301, 302, 307), robots.txt, code d'erreur 404 ou 410, balise "canonical", balise meta-robot ou directive X-Robots-Tag "noindex", etc. Mais certaines doivent-elles être préférées à d'autres pour otimiser le "budget crawl" du moteur de recherche et obtenir une meilleure exploration ? Une étude nous éclaire ici sur les priorités à mettre en place...

Déroulement d'une analyse de logs classique

Traditionnellement, lorsqu'on fait de l'analyse de logs pour le SEO, on procède à un travail de longue haleine en deux grandes étapes. Dans un premier temps, on exporte les logs de Googlebot pour comprendre comment est crawlé et interprété le site, afin d'identifier des facteurs bloquants tels que :

  • Des codes réponses ne répondant pas en 200 ;
  • Des pages SEO orphelines (absentes du maillage interne) ;
  • Des hits (visites de Googlebot) en nombre sur des pages sans intérêt pour le référencement naturel.

Tout ceci a pour but d'analyser la répartition des dépenses du budget de crawl. Suite à cette première étape, s'ensuit la seconde qui consiste à corriger ces facteurs bloquants. Ceci permet d'attribuer le budget de crawl aux pages travaillées pour le SEO, afin de maximiser leur indexation et donc leur référencement.

En effet, chaque site, en fonction de sa taille, de son ancienneté, de son optimisation SEO et de sa thématique, etc. va avoir un certain budget de crawl qui va lui être alloué. Le budget de crawl d'un site peut augmenter ou diminuer au cours de la vie du site.

But de notre analyse : comprendre comment est alloué le budget de crawl en fonction des manières de l'influencer

Le but de cet article est, au-delà de l'analyse de logs et de ce qui fonctionne pour augmenter le budget de crawl, de savoir comment Googlebot interprète les différentes actions mises en place par la personne en charge du référencement naturel. En finalité, nous allons voir ensemble ce qui consomme plus ou moins de budget de crawl et quelles techniques utiliser pour économiser ce budget sur les pages non pertinentes pour le SEO, afin d'en reporter la part la plus importante possible sur les pages travaillées en SEO.

Mise en place de l'expérience

Pour mener à bien cette expérience, nous avons relevé les logs de 12 sites durant 6 mois de manière à obtenir un panel représentatif de ce qui se passe sur des sites de petite et moyenne taille. En effet, on parle souvent d'analyse de logs sur des gros sites, nous voulions savoir ce qu'il en était pour le site de « monsieur tout le monde ». Nous avons donc mixé les logs de 12 sites de différentes typologies : des blogs, des sites vitrine, des sites institutionnels et des sites e-commerce. En termes de taille, cela représente en tout un panel de 202 404 URL pour 7 063 530 hits de Googlebot exclusivement, versions mobile et desktop.

...

[Cet article est disponible sous sa forme complète pour les abonnés du site Réacteur. Pour en savoir plus : https://www.reacteur.com/2019/05/analyse-du-comportement-de-googlebot-suite-a-une-optimisation-de-crawl.html]

Un article écrit par Julie Chodorge, Consultante SEO chez Korleon'Biz, https://www.korleon-biz.com/..