> > Analyser le contenu d'une page pour détecter le spam

Analyser le contenu d'une page pour détecter le spam


Notez cet article

Lu sur Référencement, Design et Cie dans un post intitulé "Détecter le spam par l'analyse du contenu", un étude de chercheurs de Microsoft (Marc Najork, Mark Manasse et Dennis Fetterly asisstés de Alexandros Toulas, département de génie informatique de l'université de Los Angeles) baptisée Detecting Spam Web Pages through Content Analysis" qui explique comment l'analyse du contenu d'une page peut mener à la considérer comme du spam dans 86% des cas...

Plusieurs critères sont pris en compte comme l'extension (TLD) utilisée par le site, la langue, la longueur de la balise TITLE et de certains mots, des pourcentages sur les fréquences d'apparition de certains mots courants, etc. La prise en compte de tous les éléments explicités dans l'étude serait assez efficace dans la lutte des moteurs de recherche contre le spamdexing...

A noter une étude publiée en mars 2007, déjà par Microsoft, intitulée "Spam Double-Funnel: Connecting Web Spammers with Advertisers", le spamdexing représentait 11% du contenu identifié sur le Web.

Les commentaires sont fermés.

Un site du Réseau Abondance | Olivier Andrieu | Contact | Publicité sur le site