Quatre googlers (John Mueller, Martin Splitt, Gary Illyes et Lizzi Harvey) ont publié un podcast dans lequel ils en disent plus sur la façon dont le contenu dupliqué est traité par les algorithmes du moteur de recherche. Un processus qui prend en compte plusieurs étapes et de très nombreux critères. Une bonne façon de revoir nos fondamentaux sur le sujet...

Lorsque 4 googlers zurichois (John Mueller, Martin Splitt, Gary Illyes et Lizzi Harvey*) discutent entre eux d'une question spécifique, ça donne un un podcast appelé « Search off the record » dans lequel les 4 mousquetaires discutent de sujets divers et, notamment ici , de « duplicate content » (à noter qu'un transcript au format PDF de ce podcast est également disponible).

Le podcast est intéressant, car il résume bien la façon dont le contenu dupliqué est pris en compte par Google, et ce en plusieurs étapes :

  1. Calcul d'un checksum pour chaque page web. Un checksum est une sorte d'empreinte numérique spécifique de la page en question et représentative de son contenu. Ainsi, si deux pages ont un checksum proche, ce sera un signe de contenu identique ou similaire. Ce ne sont donc pas les contenus qui sont comparés, de façon directe, mais les checksums des pages. On peut alors avoir des pages en « duplicate » (pages à contenus identique) ou en « near duplicate » (pages à contenus similaires).
  2. Pour calculer le checksum, seul le contenu éditorial (le cœur de la page) est pris en compte. Le header, le footer et le menu de navigation sont supprimés dans cette phase d'analyse et de calcul.
  3. Une fois les pages à contenu identique ou proche détectées, elle sont mises dans un « cluster » (mot à la mode en ce moment, qui caractérise ici un ensemble de pages proches).
  4. Dans ce cluster, il faut alors identifier la page canonique, celle qui aura la visibilité. Cette canonicalisation s'effectue au travers d'un algorithme utilisant une vingtaine de critères, et parmi eux : le contenu, bien sûr, mais également le PageRank, le fait que la page soit en HTTPS ou HTTP (préférence au HTTPS), le fait que l'URL soit ou non dans le fichier Sitemap XML, une éventuelle redirection et bien entendu l'information fournie dans la balise "canonical". Le tout est managé par un algorithme de machine learning qui va faire le meilleur choix possible.

Gary Illyes termine en expliquant que le traitement des pages dupliquées est complètement indépendant du mécanisme de ranking et se fait en amont. Le but est avant tout de choisir la page canonique et c'est elle qui sera ensuite classée ou pas en bonne position.

* : Lizzi Harvey est "technical writer" chez Google. Voici une page qui explique en quoi cela consiste.

Voici le podcast en question. Bonne écoute ! :

Podcast Google sur le contenu dupliqué. Source de l'image : Google