Définition publiée le 31/08/2023.


Le "Crawler", aussi connu sous les noms de "spider", “user-agent”, "robot" ou "bot", est un programme automatisé conçu pour parcourir le web. Le plus connu d’entre eux est le célèbre “Googlebot”, le robot crawler de Google.

Définition du crawler

Le crawler est l'un des piliers du fonctionnement des moteurs de recherche. Sa mission ? Explorer chaque recoin du web, visiter les sites, lire et analyser leur contenu, et collecter des informations qui seront ensuite utilisées par les moteurs de recherche pour classer et indexer ces sites.

Le crawler explore le web de manière systématique pour trouver de nouvelles pages ou mettre à jour les informations sur les pages existantes. C'est lui qui fournit la matière première aux moteurs de recherche.

Les types de crawlers et leurs fonctions

Il existe divers crawlers sur le web, chacun ayant un rôle spécifique. Voici une présentation simplifiée des principaux types de robots :

1. Crawler d'indexation :

C'est l'outil qu'utilisent les moteurs de recherche pour parcourir et indexer les sites web. Grâce à lui, des plateformes comme Google fournissent des résultats pertinents aux requêtes des utilisateurs.

2. Crawler d'optimisation :

Destiné aux professionnels du web et du SEO, ce crawler analyse les sites pour repérer des éléments nuisibles au référencement, tels que les liens défectueux ou le contenu dupliqué.

3. Robot de veille :

Centré sur l'e-commerce, ce robot analyse et collecte des données tarifaires pour aider les entreprises à surveiller les prix de la concurrence et à adapter leurs propres stratégies tarifaires.

Fonctionnement d'un Crawler

Ces programmes dotés d'algorithmes complexes ont la capacité de parcourir, analyser et indexer le web de manière systématique. Mais comment fonctionnent-ils exactement ?

Comment un crawler découvre une page web :

La découverte d'une page web par un crawler peut se faire de différentes manières :

  • Liens existants : les crawlers suivent les liens présents sur les pages qu'ils visitent pour découvrir de nouvelles pages. Si une page est bien reliée à d'autres sites ou pages populaires, elle sera probablement trouvée rapidement par le crawler.
  • Soumissions manuelles : les propriétaires de sites peuvent soumettre directement leurs URLs aux moteurs de recherche via des outils comme la Google Search Console. Cela permet de s'assurer que le crawler est informé de l'existence de la page.
  • Sitemaps : les sitemaps sont des fichiers spécifiques qui listent toutes les pages d'un site web. Ils fournissent aux crawlers une carte claire du site, facilitant leur tâche.

Ce qu'il fait une fois sur la page :

Une fois qu'un crawler arrive sur une page, plusieurs actions sont entreprises :

  • Analyser le contenu : le crawler lit le code source de la page pour comprendre son contenu. Il identifie les titres, les sous-titres, le texte, les méta-tags, et d'autres éléments pertinents.
  • Suivre les liens : comme mentionné précédemment, les liens sont essentiels pour les crawlers. Ils suivent chaque lien présent sur la page, que ce soit des liens internes (vers d'autres parties du même site) ou externes (vers d'autres sites), pour continuer leur exploration.
  • Identifier les nouvelles informations : si le crawler a déjà visité cette page par le passé, il cherchera les mises à jour ou les nouvelles informations pour les ajouter à la base de données du moteur de recherche.

Comment il indexe l'information pour le moteur de recherche :

Après avoir parcouru et analysé une page, le crawler envoie les informations recueillies à la base de données du moteur de recherche. Cette étape s'appelle l'indexation. Durant l'indexation, le moteur de recherche trie et organise les données pour qu'elles puissent être rapidement accessibles lors d'une requête utilisateur. Les algorithmes du moteur de recherche déterminent la pertinence du contenu par rapport à différentes requêtes, et cela influence le positionnement de la page dans les résultats de recherche.

L'importance d'un site "crawler-friendly"

Un site "crawler-friendly" est un site conçu de manière à faciliter la tâche des crawlers lorsqu'ils le visitent. Avoir un tel site est crucial pour plusieurs raisons :

  • Indexation efficace : Un site bien structuré et sans erreurs permet aux crawlers d'accéder facilement à toutes ses pages, garantissant ainsi une indexation complète et à jour.
  • Optimisation des ressources : Les crawlers ont un budget de crawl, c'est-à-dire un temps limité qu'ils peuvent passer sur chaque site. Un site "crawler-friendly" permet aux robots de parcourir le maximum de pages en un minimum de temps, optimisant ainsi leur passage.
  • Réduction des erreurs : Un site qui génère de nombreuses erreurs (pages introuvables, liens cassés, etc.) peut voir sa visibilité sur les moteurs de recherche affectée. En facilitant le travail des crawlers, on réduit le risque d'erreurs et on s'assure une meilleure indexation.

Nos conseils pour un bon "crawling" 

Afin d'optimiser la visibilité de votre site sur les moteurs de recherche, il est essentiel de s'assurer que les crawlers peuvent accéder, analyser et indexer efficacement votre contenu. Voici quelques conseils pratiques pour faciliter cette tâche et rendre votre site plus "crawler-friendly".

1. S'assurer que les pages importantes sont accessibles :

  • Accès direct : Les pages principales de votre site doivent être facilement accessibles depuis la page d'accueil ou d'autres pages importantes via des liens clairs. Évitez les liens cachés ou trop profondément enfouis dans la structure du site. Une convention en SEO consiste à faire en sorte que chaque page du site soit accessible en 3 clics maximum depuis la page d'accueil.
  • Plan du site : Utilisez un plan de site (aussi appelé "sitemap") pour lister l'ensemble des URL de votre site. Ceci aide les crawlers à découvrir et à indexer rapidement toutes vos pages, notamment celles qui ne sont pas directement liées depuis la page d'accueil.
  • Optimisez le maillage interne et externe de votre site en créant des liens pertinents. Cela facilitera le travail des robots mais également la navigation des utilisateurs qui trouveront plus rapidement vos pages !

2. Utiliser un fichier robots.txt pour guider les crawlers :

  • Guidage : Le fichier robots.txt sert de guide pour les crawlers, indiquant quelles pages ou sections du site ils peuvent ou ne peuvent pas explorer. Il est essentiel de s'assurer que ce fichier est bien configuré pour éviter le blocage accidentel de contenu important.
  • Mise à jour : Vérifiez régulièrement votre fichier robots.txt pour s'assurer qu'il est à jour, surtout si des modifications importantes ont été apportées à la structure de votre site.

3. Éviter le contenu en double pour ne pas dérouter les crawlers :

  • Uniformité des URL : Assurez-vous d'utiliser des URL uniformes. Par exemple, évitez d'avoir à la fois "example.com/page" et "www.example.com/page".
  • Balises canoniques : Utilisez des balises canoniques pour indiquer aux moteurs de recherche quelle version d'une page est la version "principale" s'il existe des doublons.
  • Réduire la redondance : Limitez autant que possible la publication de contenus identiques ou très similaires sur différentes pages de votre site. Le “duplicate content” a généralement un impact négatif sur le référencement d’un site.

4. S'assurer que le site se charge rapidement :

  • Optimisation des images : réduisez la taille des images sans sacrifier leur qualité. Utilisez des formats modernes comme le WebP pour des images plus légères et de haute qualité.
  • Compression : utilisez des outils de compression pour réduire la taille de vos fichiers CSS, JavaScript et HTML.
  • Hébergement fiable : assurez-vous d'avoir un hébergeur web de qualité qui offre des vitesses de chargement rapides et une disponibilité constante.
  • Réduction des requêtes : minimisez le nombre de requêtes HTTP nécessaires pour charger une page en combinant des fichiers, en utilisant des sprites pour les images et en évitant les redirections inutiles.

En suivant ces conseils, vous faciliterez non seulement le travail des crawlers, mais vous améliorerez également l'expérience de vos visiteurs. Un site bien optimisé pour le crawling est souvent un site qui offre une navigation fluide et une expérience utilisateur de qualité.

Bloquer un crawler

Il est possible de donner des instructions aux crawlers pour qu'ils ne scannent pas certaines parties de votre site si vous les jugez peu pertinentes. Voici comment :

Fichier robots.txt

Ce fichier, placé à la racine de votre site, permet d'indiquer aux crawlers les sections du site qu'ils ne doivent pas visiter. Par exemple, pour empêcher tous les crawlers d'accéder à un répertoire nommé "privé", vous ajouterez la directive "Disallow: /privé/".

Balise "noindex"

La balise "noindex" indique aux moteurs de recherche qu'une page particulière ne doit pas être indexée. En d'autres termes, même si le crawler visite cette page, elle ne sera pas incluse dans l'index du moteur de recherche. Ceci est particulièrement utile pour les pages que vous ne souhaitez pas rendre visibles dans les résultats de recherche, comme les pages internes, les pages de remerciement, ou d'autres contenus qui n'ont pas de valeur SEO. 

Balise "nofollow"

La balise "nofollow" indique aux moteurs de recherche qu'ils ne doivent pas suivre les liens sur une page donnée ou un lien spécifique. En pratique, cela signifie que si un crawler rencontre un lien marqué comme "nofollow", il ne le suivra pas pour explorer la page cible. Cette directive est utile pour contrôler la diffusion de votre "jus de lien" et pour éviter de donner de la crédibilité à des sites web non fiables ou non pertinents.

 

Attention : Bien que ces méthodes indiquent aux crawlers respectueux des standards qu'ils ne devraient pas accéder à certaines parties de votre site, elles ne constituent pas une protection contre l'accès non autorisé. Utilisez des mesures de sécurité appropriées pour protéger les informations sensibles.

Les logiciels de crawl

Plusieurs outils de crawl ont été développés afin d'analyser, d'optimiser et d'améliorer la structure et le contenu d'un site. Voici une liste non exhaustive des logiciels de crawl les plus populaires sur le marché :

Botify

Un outil complet qui analyse toutes les composantes d'un site web pour identifier les éventuels problèmes d'indexation et d'exploration. Botify offre une analyse détaillée et est souvent utilisé par de grands sites web en raison de sa capacité à gérer d'importants volumes de pages.

Deep Crawl

Comme son nom l'indique, Deep Crawl explore en profondeur les sites web pour détecter des problèmes tels que le contenu en double, les erreurs 404, ou les problèmes d'architecture. Il offre également des recommandations pour améliorer le référencement.

Screaming Frog

L'un des outils de crawl les plus connus, Screaming Frog analyse rapidement un site pour repérer les erreurs, les redirections, et les problèmes de contenu. Sa prise en main est assez intuitive, et il est apprécié pour sa capacité à donner un aperçu rapide des problèmes potentiels.

SEMRush

Bien que largement reconnu comme un outil d'analyse de mots-clés et de concurrence, SEMRush offre également des capacités de crawl. Il permet d'identifier des erreurs courantes et suggère des améliorations pour optimiser le référencement d'un site.

Oncrawl

Oncrawl est une solution orientée data qui s'appuie sur la logique des moteurs de recherche pour fournir des analyses détaillées des performances d'un site. En plus de l'analyse de la structure et du contenu, Oncrawl se penche également sur la performance technique et la vitesse de chargement des pages.

FAQ Crawler

  • image/svg+xmlimage/svg+xml
    Pourquoi mon site n'est-il pas indexé par Google ?

    Plusieurs raisons peuvent expliquer l'absence d'indexation de votre site par Google :

    • Blocage involontaire : Votre fichier robots.txt pourrait empêcher les crawlers de Google d'accéder à votre site. Assurez-vous qu'il n'y a pas de directives bloquant les moteurs de recherche.
    • Contenu en double : Si votre site présente un contenu très similaire à celui d'autres sites déjà indexés, Google pourrait considérer que votre contenu n'apporte pas de valeur ajoutée et décider de ne pas l'indexer.
    • Problèmes techniques : Des erreurs telles que des liens rompus, une structure de site compliquée ou des temps de chargement très longs peuvent décourager les crawlers.
    • Sanctions : Si Google a déterminé que votre site viole ses directives pour webmasters, il pourrait être sanctionné et exclu de l'index.
  • image/svg+xmlimage/svg+xml
    Comment puis-je voir quand un crawler a visité mon site ?

    Pour surveiller l'activité des crawlers sur votre site, vous avez plusieurs options, notamment :

    • Consulter les journaux du serveur : Les journaux de votre serveur web enregistrent toutes les requêtes reçues. En les examinant, vous pouvez voir quand les crawlers ont visité votre site, quelles pages ils ont consultées et s'ils ont rencontré des erreurs.
    • Se rendre sur la Google Search Console : Si vous avez un compte Google Search Console, vous pouvez consulter le rapport "Statistiques de la couverture" pour voir quand Google a crawlé votre site et si des erreurs ont été détectées.
  • image/svg+xmlimage/svg+xml
    Quelle est la différence entre un "crawler" et un "scraper" ?

    Un crawler collecte et prépare principalement des métadonnées non visibles directement par l'utilisateur, tandis qu'un scraper copie le contenu d'autres sites pour l'insérer, souvent avec de légères modifications, sur un autre site. Le scraping est souvent associé à des techniques de black hat, car il extrait et réutilise du contenu tangible sans autorisation.