Google a récemment mis à jour sa documentation officielle en anglais sur Search Central afin d’intégrer une nouvelle catégorie de bots : User-triggered fetchers. Identifié notamment par Roger Montti de Search Engine Journal, cet ajout vient mettre fin à une confusion qui pouvait pousser certains SEO à bloquer des IP pourtant légitimes.

Ce qu’il faut retenir :

  • Dans sa nouvelle mise à jour, Google regroupe ses robots d’exploration en trois catégories distinctes
  • La nouvelle catégorie dédiée aux User-triggered fetchers liste les bots qui s’exécutent à la demande de l’utilisateur
  • GoogleUserContent est « officialisé », mettant fin à des années de rumeurs sur d’éventuels bots malveillants se faisant passer pour Google

Google recense désormais trois catégories de robots d’exploration

  • Robots communs (Googlebot) : utilisés par les services de recherche de Google et respectent toujours les instructions du fichier robots.txt.
  • Special-case crawlers : qui exécutent des fonctions spécifiques, à l’image d’AdsBot, et respectent ou non les règles du fichier robots.txt.
  • User-triggered fetchers (GoogleUserContent).

C’est cette dernière catégorie, GoogleUserContent, qui nous intéresse le plus. Jusqu’à maintenant, Google n’avait pas vraiment fourni d’informations précises sur ces bots. Dans sa nouvelle documentation (uniquement en version anglaise), la firme de Mountain View précise que ses User-triggered fetchers « sont déclenchés par les utilisateurs pour exécuter la fonction spécifique d’un produit. »

Google prend l’exemple de Google Site Verifer qui réagit à la demande de l’utilisateur. « Étant donné que la récupération a été demandée par un utilisateur, ces bots ignorent généralement les règles du fichier robots.txt. » Google indique par ailleurs que les places d’adresse IP utilisées sont disponibles dans l’objet user-triggered-fetchers.json.

Comme l’indique Roger Montti dans son article, GoogleUserContent a longtemps semé la confusion au sein de la communauté des SEO, certains considérant qu’il s’agissait purement et simplement de bots malveillants qui tentaient de se faire passer pour les robots d’exploration de Google. Beaucoup ont ainsi eu le réflexe de bloquer d’IP associés à un GoogleUserContent pourtant tout à fait légitime…

Les robots Google listés dans la catégorie User-triggered fetchers

Actuellement, la nouvelle section dédiée aux User-triggered fetchers, uniquement indiquée sur la version anglaise du guide, mentionne quatre bots :

  • Feedfetcher : explore les flux RSS et Atom des Podcasts Google, Google News et PubSubHubbub.
  • Google Publisher Center : récupère et traite les flux que les éditeurs ont explicitement fournis par le biais de Google Publisher Center dans le but de les utiliser dans les landing pages de Google News.
  • Google Read Aloud : à la demande de l’utilisateur, Google Read Aloud récupère et lit les pages web à l’aide de la synthèse vocale (TTS).
  • Google Site Verifier : à la demande de l’utilisateur, Google Site Verifier récupère les jetons de vérification de la Search Console.

Pour information, voici la liste complète des adresses IP des User-triggered fetchers.