On le sait, Yahoo! a annoncé, au mois d'août dernier, un index de 20 milliards de documents, proposant ainsi sur le papier la plus grosse base de données de documents sur le web pour un moteur de recherche. Dans la foulée, fin septembre, Google enterrait la hache de guerre dans la bataille à "celui qui a le plus gros" et indiquait qu'il n'afficherait plus le nombre de pages indexées sur ses pages d'accueil.

Cette décision a été plutôt bien reçue par les observateurs des moteurs de recherche, car les annonces successives tournaient parfois au jeu de "celui qui fait pipi le plus loin". Bon, on y a tous joué à la récré étant gamin (enfin, surtout les garçons...), mais c'est vrai qu'on se lasse au bout d'un moment de ce type de jeux et qu'on passe rapidement à des choses plus constructives... Pour les outils de recherche, il est vite advenu que la pertinence était de façon évidente bien plus importante que la taille de l'index et que ce combat était vain à court terme. Pourquoi proposer des milliers de résultats si seuls une centaine sont vraiment pertinents ? Qui va, déjà, lire cette centaine de liens ?

Donc, d'un certain côté, la qualité a primé sur la quantité et le discours sur la taille du Web et des index des moteurs est en train de s'estomper. Ce n'est finalement pas une si mauvaise chose...

Sauf que... sans en parler, Google a de son côté grossi son index de façon très forte à la rentrée des classes 2005 (avec le retour des récrés ? 😉 ). Pour renvoyer plus de résultats, en quantité, que Yahoo! ? Peut-être. Mais il semblerait que cela se soit fait au détriment de la qualité... En effet, il semblerait que Google ait "fait le forcing" pour renforcer ses pages de résultats de liens affichés comme "Complémentaires". Exemple :

De plus en plus de ces pages se retrouvent dans les résultats du moteur de recherche. Il semblerait qu'elles soient là plutôt "pour faire le nombre" et ne semblent pas apporter une pertinence réellement supplémentaire. Il s'agit parfois de doublons de pages déjà présentes dans l'index "majeur" et très souvent de documents non crawlés (mis à jour par les robots du moteur) depuis des mois, voire des trimestres. Certains affichent une balise meta "robots noindex" et sont interdits de crawl par un fichier "robots.txt" depuis plus de 6 mois. Pourtant, ils sont encore là...

Pourquoi ces documents sont-ils affichés alors qu'ils n'apportent pas réellement de pertinence supplémentaire à l'internaute ? Nul ne le sait, car à part des considérations quantitatives, ils ne servent pas à grand chose. Finalement, la seule bonne nouvelle dans tout cela, c'est que ces résultats, Google "se les garde" et ne les fournit pas à ses sites affiliés. Des outils comme Free, Club-Internet, Numericable et Mozbot (seuls moteurs de recherche en France à afficher les résultats de Google dans le cadre d'un contrat de partenariat) ne proposent aucun lien issu des "résultats complémentaires" car Google ne les envoie pas dans ses "feeds" à ses partenaires. Peut-être s'agit-il d'un test de la part de Google et que ces liens pour la plupart inutiles vont disparaître bientôt, ce qui, sincèrement, ne serait pas un mal...