Bing a récemment indiqué que Bingbot, son robot, découvrait chaque jour des douzaines de milliards d'URL qu'il n'avait jamais vues auparavant. Un chiffre à mettre en parallèle avec un autre, fourni il y a un an et demi de cela. Mais cela ne signifie pas que tous ces contenus sont indexés, loin de là...

En février 2020, Bing nous confiait que ses robots découvraient de 70 à 100 milliards de nouvelles URL chaque jour, des adresses de pages que Bingbot n'avait jamais détectés auparavant.

Dans un tweet récent (voir ci-dessous), Fabrice Canel, responsable du crawl et de l'indexation chez Bing, donnait un chiffre un peu différent : « Nous découvrons chez Bing quotidiennement des douzaines de milliards d'URL normalisées jamais vues auparavant ».

La différence avec le chiffre de 2020 vient certainement du terme « normalisées » alors que les 70 à 1000 milliards étaient certainement un nombre brut.

Mais Fabrice continue en disant que dans ces contenus, atteints en cliquant sur ces liens inédits, on ne trouve pas grand chose de « comestible » pour un moteur de recherche : « Des contenus pour la plupart inutiles (duplicate / contenu copié-collé / généré automatiquement / spam, junk, etc) y compris les "choses à éviter"… »

Ainsi va donc la vie des moteurs de recherche : crawler un magma de contenus inutiles pour en extraire les quelques pépites qui seront indexées. Trier le bon grain de l'ivraie, un sacerdoce pas toujours facile à mettre en place, surtout quand certains s'échinent à pourrir chaque un peu plus le magma en question…

Le Tweet de Fabrice Canel sur la découverte d'URL par Bing. Source : Bing