Aujourd'hui, la taille des index des 3 principaux moteurs de recherche mondiaux est supposée approcher les 20 à 25 milliards de pages, assez proches, quantitativement parlant, les uns des autres. Celui d'Exalead (le seul à communiquer officiellement sur ce point) atteignant 8 milliards de pages (très exactement 8 002 311 606 pages si l'on en croit sa page d'accueil ce matin...).

Bien sûr, le contenu de ces index n'est pas identique d'un moteur à l'autre, même s'il existe obligatoirement une zone de recouvrement. Cependant, on pourrait penser que, grosso modo, l'indexation de certains sites web est, quantitativement, assez proche, en termes de nombre de pages indexées par ces quatre leaders. Cette notion se mesure grâce à l'opérateur "site:" (exemple : site:blog.abondance.com) sur chacun des 4 moteurs.

Or, si on effectue ce type de recherche, on s'aperçoit très rapidement que les résultats sont totalement disparates et qu'aucune unité ne semble décelable. Voici un petit test que nous avons fait sur 10 URL, choisies de façon aléatoire (les recherches ont toujours été faites avec l'option "Tout le Web" cochée, pour chaque site web indiqué, nous avons rapporté le nombre de résultats renvoyés par chaque moteur avec la syntaxe "site:") :

Site:
www.lequipe.fr
190 000
27 105
296 000
104 182
www.monvoyageur.com
60 700
5 448
5 720
93 857
www.rue89.com
69 700
18 845
95 300
12 205
www.programme.tv
192 000
2 444
6 500
381 061
abondance.com
4 390
4 174
105 000
8 104
www.tf1.fr
2 260
5 751
5 660
710
www.aufeminin.com
893 000
21 091
51 500
806 845
skyrock.com
7 890 000
132 697
1 180 000
1 787 529
blogspot.com
122 000 000
8 918 196
7 590 000
34 386 547
searchengineland.com
5 030
6 140
142 000
639

Les écarts, d'un site et d'un moteur à l'autre, sont considérables !

Que peut-on déduire de ces chiffres ? Plusieurs choses, au choix :

- Que l'opérateur "site:" renvoie des résultats erronés, ce qui serait vraiment dommage...

- Que les index des différents moteurs n'ont absolument pas la même taille (on m'aurait menti ?? 🙂 )

- Que certaines sites web ne sont pas "égaux" devant les moteurs de recherche, certains sites étant très bien indexés par un moteur et très mal par d'autres, pour des raisons inconnues.

- Que les moteurs gèrent plus ou moins bien des phénomènes de "duplicate content" à l'intérieur d'un site.

- Il serait intéressant, par ailleurs, de surveiller ces chiffres pour un même site web, mais au niveau de leur variation dans l etemps. Peut-être que, là aussi, nous pourrions découvrir des surprises...

Avez-vous remarqué de tels phénomènes sur vos sites web ou sur d'autres ? J'avoue que cela me laisse assez perplexe...