MadSpam est un projet de recherche auquel collaborent ANR, Orange (France Telecom RetD et Portail Orange), blogSpirit, KartOO et le Laboratoire d'informatique de Paris 6. Il a pour nom complet Méthodes Automatiques pour la Détection de SPAMdexing sur les Grands Réseaux d'Information.

voici comment il se présente sur son site :

La pollution par le spam des contenus sur les environnements ouverts comme le Web, les forums, les blogs, et tous les sites collaboratifs ouverts du Web, se déploie à très grande vitesse et attaque aujourd'hui tous les média du Web. Le succès du Web est directement lié à son ouverture, la contrepartie en est que toute source d'information ouverte peut être manipulée de façon malicieuse pour être détournée de son but initial. Le phénomène est déjà extrêmement important pour tous les acteurs de l'Internet et constitue une menace de premier ordre pour cette économie.

Le spam dans le cas du Web est aujourd'hui connu sous le nom de spamdexing. Dans le milieu des années 90, il a largement participé au déclin de nombreux moteurs de recherche alors que Google montait en puissance grâce à des algorithmes de référencement plus robustes au spamdexing. Google a rapidement été rattrapé par le phénomène. Tous les acteurs du Web2.0 sont directement menacés par la généralisation et la croissance des différents phénomènes de spam/spamdexing. La pollution du Web est devenue tellement importante que tous les moteurs de recherche commerciaux doivent aujourd'hui consacrer une partie importante de leurs ressources à la lutte antispam.

Bien au-delà des sites Web, le spam attaque aujourd'hui toutes les sources d'information ouvertes comme les blogs, les wiki, les forums, les sites collaboratifs, les réseaux sociaux et plus généralement tous les réseaux d'interaction basés sur le partage ou l'échange de contenu. Les enjeux économiques et sociaux sont devenus extrêmement importants pour les différents acteurs du Web et pour les utilisateurs: les moteurs de recherche, les blogs et tous les sites pollués meurent très rapidement.

Alors que le spam sur les e-mails (90% du trafic des e-mails) a fait l'objet de nombreuses mesures aussi bien techniques que légales, très peu a été fait pour toutes les formes de spamdexing adressées dans ce projet. Il n'y a pas aujourd'hui de parade pour ces formes récentes de spam et les entreprises qui commercialisent des environnements de développement pour les blogs, wiki, etc ainsi que les utilisateurs sont à la merci des spammeurs. Le phénomène de spam est très diversifié. Une caractéristique essentielle est qu'il s'adapte rapidement à toutes les parades et qu'il s'agit d'une bataille permanente entre spammeurs et acteurs du web. Il faut que les parades soient suffisamment génériques pour s'adapter elles même en permanence aux nouvelles sources de spam et pour pouvoir être déployées rapidement par les différents acteurs du Web. C'est l'objet du projet de développer des outils permettant de contrer le spamdexing sous ses différentes formes et de les déployer à grande échelle en situation réelle.

[...] Le projet vise à développer une bibliothèque d'outils génériques permettant de s'adapter aux différentes sources et manifestations du spam, non seulement dans les deux applications cibles du projet (moteurs de recherche, blogs et forums) mais aussi dans les applications proches comme les wiki et des domaines émergents comme les réseaux sociaux. Pour ces différentes applications, l'interactivité et l'adaptabilité seront privilégiés. D'autre part le projet permettra à travers des campagnes de test à large échelle de mieux caractériser et analyser ces phénomènes de spamdexing qui parce qu'ils sont plus récents que le spam sur les courriers électroniques n'ont pas fait l'objet d'études systématiques ni de tentatives de législation.

Le projet dispose également d'un blog et certaines de ses équipes ont participé au Challenge WebSpam 2008 dont les résultats ont été déovilés en avril dernier à Pékin. Une initiative en tout les cas intéressantes et don tl'impact sur la qualité des résultats de recherche sera à suivre dans le smois qui viennent...