Résumé de l'article :

Pour créer et maintenir leur index à jour, les moteurs de recherche utilisent des logiciels appelés indifféremment "spiders", "crawlers", "bots" ou "agents". Ces outils, chargés de "crawler" le Web à la rencontre de nouvelles pages ou de nouvelles versions de pages déjà indexées, ont grandement évolué depuis une dizaine d'années. Cet article, très complet, explore ces différentes versions et évolutions de Googlebot, le spider de Google, qui n'a plus rien à voir aujourd'hui avec ce qu'il était lors de la naissance du moteur de recherche leader. Prêt à tenter l'aventure et à endosser votre habit de spider ?...

Début de l'article :

Avant de pouvoir servir des pages de résultats aux utilisateurs, les moteurs de recherche ont besoin de créer des index sophistiqués, après avoir "aspiré" le contenu du World Wide Web. Cette dernière tâche est réservée aux "crawlers" (On appelle également souvent les crawlers "spiders" ou "bots"), dont le plus connu est bien sûr Googlebot. L'importance de cette phase de crawl est souvent sous estimée par les webmasters. Or, le fait qu'une page ne soit pas crawlée au bon moment, ou pas crawlée du tout, a logiquement un impact très négatif sur le référencement et le positionnement de ces pages dans un moteur comme Google.

Nous allons voir tout d'abord que la tâche des crawlers est loin d'être facile, en raison des limitations techniques actuelles, mais aussi parce que les webmasters s'ingénient à rendre les choses difficiles pour ces programmes. Nous verrons ensuite comment Google en particulier a amélioré son système de crawl au fil du temps pour résoudre certaines de ces difficultés. Enfin, nous nous intéresserons aux évolutions récentes du crawl de Google, aux défis nouveaux qui se dressent devant les ingénieurs des outils de recherche, et nous donnerons en conclusion quelques recommandations opérationnelles pour surveiller le crawl de Google.


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).