Revenons quelques instants sur l'étude du NEC Research Institute dont nous parlions la semaine dernière. Cette étude donne comme résultat le fait que les moteurs de recherche semblent dépassés par l'explosion du nombre de pages sur le Web. Selon les deux chercheurs, Steve Lawrence et C. Lee Giles, il y aurait aujourd'hui 800 millions de pages Web disponibles, représentant 6 teraoctets de texte répartis sur 3 millions de serveurs. Rappelons qu'en décembre 1997, ces mêmes chercheurs proposaient le chiffre de 320 millions de pages. Et encore, ces chiffres ne prennent pas en compte, bien entendu, ce que l'on appelle le "Web invisible", c'est-à-dire notamment les pages émanant d'une interrogation de base de donnée en ligne. Les chiffres indiqués ne prennent en considération que les pages HTML dites "statiques". Cette étude, publiée dans le magazine scientifique américain Nature (et disponible par mail au format PDF), démontre tests à l'appui que les moteurs les plus performants couvrent une part sans cesse décroissante du total des pages publiées sur le Web, et mettent un temps de plus en plus important à référencer les nouvelles. Les chiffres de couverture du Web sont les suivants : Northern Light : 16.0%, Snap : 15.5%, AltaVista : 15.5%, HotBot : 11.3%, Microsoft : 8.5%, Infoseek : 8.0%, Google : 7.8%, Yahoo! : 7.4%, Excite : 5.6%, Lycos : 2.5%, EuroSeek : 2.2%.
L'étude donne également le pourcentage de liens cassés dans les résultats proposés. Le meilleur est HotBot avec 2,2 %, le plus mauvais Lycos avec 14 % ! Bref, une étude à lire le plus rapidement possible. Pour plus d'information :
http://www.wwwmetrics.com/