Analyser le contenu d'une page pour détecter le spam

Analyser le contenu d’une page pour détecter le spam

Olivier Andrieu / 25 Fév 2008 à 08h05

Temps de lecture : 1 minute

Partagez l'article

Lu sur Référencement, Design et Cie dans un post intitulé "Détecter le spam par l'analyse du contenu", un étude de chercheurs de Microsoft (Marc Najork, Mark Manasse et Dennis Fetterly asisstés de Alexandros Toulas, département de génie informatique de l'université de Los Angeles) baptisée Detecting Spam Web Pages through Content Analysis" qui explique comment l'analyse du contenu d'une page peut mener à la considérer comme du spam dans 86% des cas...

Plusieurs critères sont pris en compte comme l'extension (TLD) utilisée par le site, la langue, la longueur de la balise TITLE et de certains mots, des pourcentages sur les fréquences d'apparition de certains mots courants, etc. La prise en compte de tous les éléments explicités dans l'étude serait assez efficace dans la lutte des moteurs de recherche contre le spamdexing...

A noter une étude publiée en mars 2007, déjà par Microsoft, intitulée "Spam Double-Funnel: Connecting Web Spammers with Advertisers", le spamdexing représentait 11% du contenu identifié sur le Web.

Analyser le contenu d’une page pour détecter le spam

Articles complémentaires :

Comment Google a lutté contre le spam en 2022

SpamBrain, l’outil AI de lutte contre le spam de Google

Google : la vidéo doit être le contenu principal pour apparaître sous forme de vignette