Comment fonctionne l’exploration de site ?

L'exploration d'un site web par les robots est un processus automatisé qui sert à découvrir et à indexer le contenu des pages web. Les étapes de l’exploration : Découverte : Le crawler commence par une liste des URL connues, généralement des pages très populaires ou des sites de grande importance. Il suit ensuite tous les liens sur ces pages pour découvrir d'autres pages. Indexation : Une fois qu'une page a été découverte, le crawler analyse son contenu (texte, images, vidéos, etc.) et son code (HTML, CSS, JavaScript, etc.) pour comprendre de quoi il s'agit. Cette information est ensuite indexée, c'est-à-dire stockée dans une énorme base de données qui peut être rapidement recherchée lorsqu'un utilisateur effectue une recherche. Suivi : Le robot de recherche continue de suivre les liens sur chaque page nouvellement découverte, répétant le processus d'indexation, et découvrant ainsi de nouvelles pages. Ce processus se poursuit indéfiniment, les robots de recherche revisitant régulièrement les pages pour détecter les nouveaux contenus ou les modifications. La fréquence et la profondeur de cette exploration dépendent du Crawl Budget alloué par le moteur de recherche à votre site.

A quoi sert une demande d’exploration ?

Une demande d'exploration (ou de crawl) est une fonctionnalité que les propriétaires de sites web peuvent utiliser pour indiquer aux moteurs de recherche qu'une page spécifique devrait être explorée. Cette fonctionnalité est particulièrement utile lorsque de nouveaux contenus ont été ajoutés ou lorsque des modifications importantes ont été apportées à une page existante. Sur Google Search Console, par exemple, les propriétaires de sites peuvent utiliser la fonction "Inspection de l'URL" pour demander une exploration. Après avoir entré l'URL de la page en question, vous pouvez "Demander l'indexation" à Google . C'est une bonne façon de s'assurer que les nouvelles pages ou les mises à jour importantes sont prises en compte par les moteurs de recherche. Notez que les moteurs de recherche ont des ressources limitées pour explorer les sites : l'envoi d'une demande d'exploration ne garantit pas que la page sera explorée immédiatement.

Qu’est-ce que le taux limite de crawl ?

Le taux limite de crawl (crawl rate limit) est une mesure utilisée par les moteurs de recherche pour déterminer le nombre maximum de requêtes qu'un robot peut effectuer sur un site web sans nuire à la performance du site. C’est la fréquence à laquelle le robot de recherche visitera votre site sans surcharger votre serveur. Ce taux est généralement déterminé par la capacité du serveur à répondre aux demandes . Si le serveur répond rapidement et sans erreur, le taux limite de crawl peut augmenter, permettant au robot de recherche de visiter le site plus fréquemment.

Qu'est-ce que le crawl budget et comment l'optimiser ?

Le Crawl Budget se réfère à la quantité de ressources qu'un moteur de recherche tel que Google, alloue à l'exploration de votre site web. Plus votre budget de crawl est élevé, plus vous devriez avoir de pages indexées.

Définition du Crawl Budget

Commençons par la base : qu'est-ce que le Crawl Budget ? C'est le nombre de pages que les robots de Google, appelés "Googlebot", sont capables d'explorer sur votre site en un laps de temps donné.

Il est déterminé par deux facteurs principaux :

Crawl Rate Limit : Il s'agit du nombre maximum de crawls qu'un moteur de recherche effectuera sur un site sans en perturber le fonctionnement. Ce nombre peut être limité pour éviter que les robots de crawl surchargent le serveur du site, ce qui pourrait avoir un impact négatif sur l'expérience des utilisateurs. Plusieurs facteurs peuvent influencer le Crawl Rate Limit, notamment la vitesse de réponse du serveur, le fait que le site soit en panne ou non, et le fait que le site ait précédemment rencontré des problèmes de serveur.
Crawl Demand : Il s'agit du désir d'un moteur de recherche de revenir crawler un site. Si un site est fréquemment mis à jour ou si ses pages sont populaires (c'est-à-dire fréquemment liées à d'autres sites ou affichées dans les résultats de recherche), les moteurs de recherche peuvent avoir une plus grande "demande" de crawl. En revanche, les pages qui ne sont pas souvent mises à jour ou qui ne sont pas populaires peuvent être crawlées moins fréquemment.

Le Crawl Budget est donc la combinaison de ces deux facteurs. C'est une indication du nombre de pages qu'un moteur de recherche est disposé et capable de crawler sur votre site dans un laps de temps donné.

Comprendre et optimiser votre Crawl Budget est essentiel pour garantir que les moteurs de recherche peuvent indexer efficacement le contenu de votre site. Cela peut avoir un impact direct sur la visibilité de votre site dans les résultats de recherche, ce qui peut à son tour affecter le trafic sur votre site et finalement vos objectifs commerciaux.

Demander un audit SEO Déléguer mes contenus

Pourquoi le Crawl Budget est important ?

Meilleure indexation : Les crawlers des moteurs de recherche, comme Googlebot, explorent votre site pour indexer les nouvelles pages. Un Crawl Budget plus élevé signifie que plus de pages peuvent être explorées et donc indexées, améliorant ainsi la visibilité de votre site dans les résultats de recherche.
Mises à jour plus rapides : Si vous mettez fréquemment à jour le contenu de votre site, vous obtiendrez un Crawl Budget plus élevé. Cela permettra aux robots d'indexer vos mises à jour plus rapidement. Les utilisateurs verront toujours les informations les plus récentes lorsqu'ils trouveront votre site dans les résultats de recherche !
Priorisation du contenu : Un bon contrôle de votre Crawl Budget vous permet de diriger les robots vers les pages les plus importantes ou les plus récentes de votre site. Cela garantit que ces pages soient indexées rapidement et aient une chance plus élevée d'apparaître dans les résultats de recherche.
Performance du site : Un Crawl Budget bien géré aide à maintenir les performances de votre site. Un crawl excessif peut ralentir votre site, tandis qu'un crawl insuffisant peut laisser des pages non indexées. L'optimisation de votre Crawl Budget assure un équilibre entre l'exploration suffisante pour l'indexation et la préservation de la performance de votre site.

Facteurs qui influencent le Crawl Budget

Pour déterminer le Crawl Budget d'un site, les moteurs de recherche prennent en compte un certain nombre de critères, à comprendre pour optimiser votre budget crawl.

La taille et la structure de votre site

La taille de votre site (c'est-à-dire le nombre total de pages) peut avoir un impact significatif sur votre Crawl Budget. Les sites avec un grand nombre de pages nécessitent un budget de crawl plus élevé pour que toutes les pages soient explorées et indexées.

La structure de votre site peut également influencer votre budget de crawl. Un site bien organisé, avec une structure de navigation claire, facilite le travail des robots et peut permettre une exploration plus efficace.

La vitesse du serveur

La vitesse à laquelle votre serveur répond aux demandes du robot de crawl peut affecter votre Crawl Budget. Si votre serveur est lent, le robot pourrait passer moins de temps à explorer votre site. Investir dans un hébergement de qualité, capable de répondre rapidement aux demandes, participe à augmenter votre budget de crawl.

La fréquence de mise à jour du contenu

Les moteurs de recherche cherchent à fournir les résultats les plus pertinents et les plus récents aux utilisateurs. Par conséquent, si votre site est régulièrement mis à jour avec du nouveau contenu, les robots de crawl voudront revenir plus souvent.

La popularité

La popularité de votre site peut également jouer un rôle dans la détermination de votre Crawl Budget. Si votre site a beaucoup de liens entrants provenant de sites de qualité, cela peut indiquer aux moteurs de recherche que votre site est une ressource précieuse, et inciter les robots de crawl à visiter plus fréquemment votre site.

Les erreurs

Les erreurs sur votre site, comme les liens brisés, les pages d'erreur 404 ou les redirections excessives, peuvent influencer négativement votre budget de crawl. Ces erreurs peuvent faire perdre du temps aux robots et réduire l'efficacité de leur exploration. Il est donc essentiel de maintenir votre site exempt d'erreurs pour optimiser votre budget.

Comment optimiser votre Crawl Budget ?

Gardez votre site propre : supprimez les pages inutiles, les liens morts et évitez le contenu en double. Chaque page doit être unique.
Améliorez la vitesse de chargement de votre site : assurez-vous que votre serveur est rapide et que vos pages se chargent vite, pour ne pas ralentir les robots.
Bloquez les pages non essentielles : dans le fichier robots.txt, bloquez les pages qui n’ont pas besoin d’être indexées afin d’éviter de dépenser une partie de votre budget crawl sur ces pages inutiles.
Utilisez des URL claires : une structure d’URL cohérente facilite le travail des robots. Réécrivez vos URL d’une façon simple et descriptive.
Corrigez les erreurs de crawl : elles peuvent gaspiller votre crawl budget et rendre l’exploration de votre site plus difficile. Identifiez-les grâce à des outils comme la Search Console.
Utilisez un sitemap : un plan de site aide Googlebot à naviguer plus facilement sur votre site.

Outils pour suivre et améliorer votre Crawl Budget

Vous souhaitez suivre votre progression ? Il existe des outils qui peuvent vous aider à surveiller votre Crawl Budget.

Google Search Console

Google Search Console est un bon point de départ. Il vous montrera combien de pages Googlebot a exploré sur votre site. Dans le rapport "Statistiques de la couverture", vous pouvez voir combien de pages ont été indexées, quelles pages ont des erreurs, et combien de pages sont exclues de l'indexation.

Dans les "Paramètres de crawl", vous pouvez voir la fréquence à laquelle Googlebot explore votre site. Ces informations peuvent vous aider à comprendre comment votre Crawl Budget est utilisé.

SEMrush

SEMrush est un outil SEO qui offre une variété de fonctionnalités pour l'optimisation du site. Vous pouvez surveiller les erreurs de crawl, les problèmes de contenu en double, et les problèmes de structure de site qui peuvent affecter votre Crawl Budget.

Screaming Frog

Screaming Frog est un outil d'exploration de site très populaire. Il vous permet d'explorer votre site de la même manière qu'un moteur de recherche, vous donnant ainsi une meilleure idée de ce que les robots de crawl peuvent voir lorsqu'ils visitent votre site. Vous pouvez utiliser Screaming Frog pour identifier les erreurs de crawl, les liens brisés, les problèmes de contenu en double, etc.

DeepCrawl

DeepCrawl est un autre outil d'exploration de site qui peut vous aider à optimiser votre Crawl Budget. Il offre une analyse détaillée de votre site, y compris des rapports sur les erreurs de crawl, les problèmes de performance du site, et les problèmes de structure du site.

FAQ Crawl Budget

Comment fonctionne l’exploration de site ?
L'exploration d'un site web par les robots est un processus automatisé qui sert à découvrir et à indexer le contenu des pages web. Les étapes de l’exploration :
Découverte : Le crawler commence par une liste des URL connues, généralement des pages très populaires ou des sites de grande importance. Il suit ensuite tous les liens sur ces pages pour découvrir d'autres pages.

Indexation : Une fois qu'une page a été découverte, le crawler analyse son contenu (texte, images, vidéos, etc.) et son code (HTML, CSS, JavaScript, etc.) pour comprendre de quoi il s'agit. Cette information est ensuite indexée, c'est-à-dire stockée dans une énorme base de données qui peut être rapidement recherchée lorsqu'un utilisateur effectue une recherche.

Suivi : Le robot de recherche continue de suivre les liens sur chaque page nouvellement découverte, répétant le processus d'indexation, et découvrant ainsi de nouvelles pages. Ce processus se poursuit indéfiniment, les robots de recherche revisitant régulièrement les pages pour détecter les nouveaux contenus ou les modifications.
La fréquence et la profondeur de cette exploration dépendent du Crawl Budget alloué par le moteur de recherche à votre site.
A quoi sert une demande d’exploration ?

Une demande d'exploration (ou de crawl) est une fonctionnalité que les propriétaires de sites web peuvent utiliser pour indiquer aux moteurs de recherche qu'une page spécifique devrait être explorée. Cette fonctionnalité est particulièrement utile lorsque de nouveaux contenus ont été ajoutés ou lorsque des modifications importantes ont été apportées à une page existante.
Sur Google Search Console, par exemple, les propriétaires de sites peuvent utiliser la fonction "Inspection de l'URL" pour demander une exploration. Après avoir entré l'URL de la page en question, vous pouvez "Demander l'indexation" à Google.
C'est une bonne façon de s'assurer que les nouvelles pages ou les mises à jour importantes sont prises en compte par les moteurs de recherche. Notez que les moteurs de recherche ont des ressources limitées pour explorer les sites : l'envoi d'une demande d'exploration ne garantit pas que la page sera explorée immédiatement.
Qu’est-ce que le taux limite de crawl ?

Le taux limite de crawl (crawl rate limit) est une mesure utilisée par les moteurs de recherche pour déterminer le nombre maximum de requêtes qu'un robot peut effectuer sur un site web sans nuire à la performance du site.
C’est la fréquence à laquelle le robot de recherche visitera votre site sans surcharger votre serveur. Ce taux est généralement déterminé par la capacité du serveur à répondre aux demandes. Si le serveur répond rapidement et sans erreur, le taux limite de crawl peut augmenter, permettant au robot de recherche de visiter le site plus fréquemment.

Mathilde Grattepanche

Responsable éditoriale & Rédactrice web

Avec sa plume affûtée et son expertise en rédaction web, Mathilde a acquis une solide expérience avant de rejoindre l’équipe en tant que responsable éditoriale d’Abondance. Quand elle est au clavier, réactivité et qualité sont toujours au rendez-vous !