Une interview de deux ingénieurs de Google au magazine Wired nous en apprend plus sur la façon dont Google détecte le spam dans ses résultats, et notamment pour la dernière mise à jour de son algorithme, baptisée "Farmer", ou "Panda" en interne...

Deux ingénieurs de Google, Amit Singhal et l'emblématique Matt Cutts, ont répondu aux questions du magazine Wired au sujet de la dernière mise à jour de l'algorithme du moteur de recherche, censée combattre le spam dans son index.

Le passage le plus intéressant de cet interview est la description du sytème de détection du spam utilisée par Google et sur la façon de reconnaître une "ferme de contenu", point sur lequel de nombreux observateurs se posaient des questions dernièrement : Google utilise en fait des êtres humains, à qui sont soumis certains sites avec la nécessité de répondre à certaines questions à leur sujet : "Est-ce que vous donneriez le numéro de votre carte de crédit à ce site ?", "Est-ce que vous donneriez à vos enfants un médicament prescrit par ce site ?", "Est-ce que ce site est une référence dans son domaine pour vous ?", "Est-ce que vous trouveriez normal que ce contenu se retrouve dans un magazine papier ?", "Ce site propose-t-il trop de publicités ?", etc.

Les deux googlers ont indiqué que les résultats de ces tests humains recouvraient à 84% ceux du système de bloquage instauré depuis peu dans le navigateur Chrome. A priori, les deux ingénieurs semblent très satisfaits de ce nouvel algorithme (même si toute tentative de ce type contient une part de subjectivité). Un algorithme qui, rappelons-le, na pas encore été appliqué en France.

Google indique également dans l'interview qu'il s'agit ici de son "système d'évaluation standard" pour corriger le spam dans son index. Cette vague de spam avait été un des "dommages collatéraux" de sa nouvelle structure d'indexation Caffeine qui avait permis d'indexer à partir du mois de juin 2010 beaucoup plus de contenus qu'auparavant, mais pas uniquement du contenu de bonne qualité, et que les fermes de contenu représentaient un nouveau type de contenu à prendre à compte, ce que ne faisaient pas obligatoirement très bien les algorithmes de détection de spam utilisés jusqu'alors.

Pour l'anecdote, cette mise à jour de l'algorithme avait été baptisée "Farmer" par Danny Sullivan, du site Search Engine Land, puisqu'elle visait en priorité les fermes de contenu, mais on apprend ici qu'en interne, les ingénieurs de Google l'avait nommée "Panda" du surnom d'un des principaux développeurs ayant travaillé sur le projet...

Amit Singhal - Matt Cutts

Source de l'image : Wired

Articles connexes sur ce site :
- Une extension Chrome pour bloquer les sites indésirables et lutter contre le spam (15 février 2011)
- Google rachète BeatThatQuote.com... Et le pénalise aussitôt ! (9 mars 2011)
- Les 25 sites les plus pénalisés par le nouvel algorithme de Google (28 février 2011)
- Nouvel algorithme de pertinence pour Google (25 février 2011)
- Une extension Chrome pour bloquer les sites indésirables et lutter contre le spam (15 février 2011)
- 2011, l'année de la lutte contre le spam et les "content farms" pour Google ? (24 janvier 2011)
- Google pourrait améliorer sa détection du cloaking en 2011 (29 décembre 2010)
- 1 million de pages de spam créées chaque heure selon Blekko (10 janvier 2011)