Nous continuons notre série de questions/réponses avec Google en traitant une question qui revient assez souvent sur les éventuelles vitesses de crawl de Googlebot sur un site web.

En effet, Google propose, dans ses Webmaster Tools, de modifier la vitesse à laquelle ses robots viennent "crawler" votre site web. Dans la rubrique "Configuration du site > Paramètres > Vitesse d'exploration", il est possible d'opter pour le choix "Définir la vitesse d'exploration personnalisée" au lieu de "Laisser Google déterminer ma vitesse d'exploration (recommandée)" (choix par défaut) :

L'outil vous propose alors de modifier cette vitesse d'exploration, de "plus lent" à "plus rapide" :

Cependant, il arrive que certains webmasters se retrouvent, à ce niveau, devant la phrase suivante (en anglais) :

"Your site has been assigned special crawl rate settings. You will not be able to change the crawl rate"

ou, en français :

"Des paramètres spécifiques ont été définis pour la vitesse d'exploration de votre site. Vous ne pouvez pas modifier la vitesse d'exploration"

Cela signifie-t-il qu'il est impossible de modifier la vitesse d'exploration des spiders ? Comment faire alors si ces spiders mettent à mal les serveurs à certains moments en "crawlant trop fort" ? Nous avons posé la question à Google et à Nathalie Peret, de l'équipe "Quality Search" du moteur, et voici sa réponse :

Question Abondance : Que faire si, dans les Webmaster Tools, le message "Des paramètres spécifiques ont été définis pour la vitesse d'exploration de votre site. Vous ne pouvez pas modifier la vitesse d'exploration" apparaît lorsqu'on veut modifier la vitesse d'exploration de notre site par Googlebot ?
 

La réponse de Google : La plupart du temps, les utilisateurs n'ont pas besoin de changer les paramètres de vitesse d'exploration dans les outils pour les webmasters. Google donne le message indiqué dans la question uniquement si la vitesse est déjà définie de manière automatique pour les sites. Toutefois, si cette vitesse d'exploration pose problème et qu'elle surcharge les serveurs, il y a plusieurs façons d'aider Googlebot à crawler un site :

- Vérifier les logs de crawl pour trouver les URLs qui pourraient poser problème, par exemple les ID de session, les requêtes très compliquées, les calendriers "infinis", etc.

- Si vous n'avez pas besoin d'indexer ces URLs, utilisez l'outil de traitement de paramètres pour enlever les paramètres d'ID de session ou autres. Vous pouvez aussi bloquer certaines parties du site avec le fichier robots.txt
Article sur le traitement des paramètres:
http://www.google.com/support/webmasters/bin/answer.py?&answer=147959
Article sur l'optimisation d'URLs pour le crawl :
http://www.google.com/support/webmasters/bin/answer.py?&answer=76329

- Renvoyer un code 503 quand il y a une surcharge du serveur. Cela indique à Googlebot que le serveur n'est pas disponible et de réessayer plus tard.

Si vous avez essayé les différentes options, et que le serveur est toujours surchargé, faites remonter ce problème spécifique de vitesse d'exploration via votre compte outils pour les webmasters dans le formulaire "Signaler un problème lié à Googlebot". Il vous faudra spécifier votre adresse IP, user-agent et des extraits de log de votre serveur (lien "En savoir plus" à droite de l'option "Vitesse d'exploration" :

Pour ceux qui ont la possibilité de modifier la vitesse d'exploration dans les outils, sélectionnez directement une des options disponibles:
http://www.google.com/support/webmasters/bin/answer.py?&answer=48620

Notre commentaire : la réponse de Google ne nous éclaire pas complètement sur la raison du message affiché. En revanche, elle donne plusieurs pistes d'investigation pour résoudre le problème posé par ce message... !!!

Rappel des deux premières Questions à Google :
1. Les underscores dans les URL (Questions/réponses avec Google #1)
2. Web 2.0, Contenu caché et pénalités Google (Questions/réponses avec Google #2)
3. La pondération des liens entrants - ou backlinks - (Questions/réponses avec Google #3)
4. Les redirections multiples en cascade - (Questions/réponses avec Google #4)