Revenons sur l'étude conjointe d'Altavista, Compaq et IBM sur le "web déconnecté" dont nous parlions déjà il y a quelques jours et sur laquelle on a aujourd'hui plus d'informations. Les scientifiques des centres de recherche IBM, Compaq et altaVista ont donc achevé la représentation graphique d'une carte topographique complète du Web mondial, après le webmap d'Inktomi (l'annonce successive des deux études n'est peut-être pas d'ailleurs un hasard) et ont découvert l'existence de division entre différentes zones d'Internet, pouvant rendre la navigation sur le Web difficile, voire impraticable.
Les recherches qui avaient été effectuées auparavant, basées sur de simples échantillonnages du Web, avaient permis de conclure à un haut degré de connectivité entre les sites.
Cependant, la recherche effectuée par IBM, Compaq et Altavista sur l'analyse de plus de 200 millions de pages Web, prouve (contrairement à ce que l'on croyait) que le Web Mondial est fondamentalement divisé en quatre grandes zones, chacune comprenant approximativement le même nombre de pages, environ 50 millions. On a pu constater de même qu'un nombre impressionnant de sites Web était inaccessible par le biais des liens hypertextes. Or, ces liens sont ce qu'un internaute utilise le plus au cours de ses navigations sur le reseau. La théorie du "noeud papillon" permet d'appréhender la dynamique comportementale du Web et son organisation complexe. La theorie du "noeud papillon" et les quatre zones du Web : C'est au fur et a mesure des recherches que la representation du Web s'est profilée en forme de noeud papillon : 90% du Web environ se divise en quatre grandes zones, les 10% restants se trouvant totalement déconnectés du "noeud papillon" en question.
Le " noeud " est constitue du "noyau ultra connecté" et contient à peu près à 56 millions de pages. Les internautes peuvent aisément naviguer entre ces sites, via les liens hypertextes. Ce noyau compact constitue le coeur du réseau Internet. La partie gauche du "noeud papillon" contient les pages "de création" et représente environ un quart du réseau. Elles permettent l'accès au coeur du Web (le noyau hyper-connecté) mais l'inverse n'est pas possible (le "noyau dur" n'a pas de liens vers elles). La partie droite du "noeud papillon" représente environ un cinquième du Web et est le contraire de l'aile droite. Les pages de destination sont accessibles depuis le noyau ultra connecté, mais aucun retour vers le noyau n'est possible ; c'est par exemple le cas des sites institutionnel d'entreprise qui reçoivent beaucoup de liens mais qui n'en offrent que très rarement. Des culs de sac du Web en quelque sorte.
La quatrième et dernière zone contient des pages "déconnectées", qui représentent environ un cinquième également du Web. Les pages déconnectées sont accessibles mais ne donnent pas acces au noyau ultra connecté et ne sont "pointées" par aucune page du web.
Cette etude, la plus vaste jamais realisée sur la topographie du Web, fait partie d'un projet de collaboration entre AltaVista, Compaq et IBM. Les chercheurs espèrent pouvoir mettre régulièrement à jour l'étude menée, sur une base réguliere de données collectées au moyen du moteur de recherche AltaVista et d'un logiciel serveur de connectivité avancée avec le système alphaServer de Compaq. Les centres de recherche d IBM analysent les données et contribuent au développement de la théorie du "noeud papillon".
http://www.almaden.ibm.com/cs/k53/www9.final/#figure9