Google, par l'intermédiaire de son porte-parole Gary Illyes, l'avait dit en 2015, il la répété dernièrement : le Web génère 60% de contenu dupliqué. Mais cette statistique énorme se doit d'être analysée...

Google l'avait déjà dit en 2015, et Gary Illyes (qui était déjà la source de l'info il y a 7 ans) l'a répété dans un événement « Google Search Central Live » à Singapour dernièrement : 60% du Web correspond à du contenu dupliqué.

Selon Kenichi Suzuki, présent lors de la conférence de Gary et qui a twitté les illustrations ci-dessous, ce chiffre énorme correspond également aux URL :

  • Doublons HTTP/HTTPS ;
  • Doublons avec ou sans www ;
  • Doublons dus à des paramètres inutiles comme les identifiants de session ;
  • Doublons dus à la présence ou non de slash à la fin ;
  • Doublons dus à des checksums trop proches (voir notre vidéo sur les checksums) ;
  • Etc.

Le duplicate content n'est donc pas uniquement un phénomène touchant le contenu éditorial…

On peut d'ailleurs se rendre compte à quel point le Web génère du contenu dupliqué par défaut en analysant le nombre d'URL refusées à l'indexation dans la Search Console d'un site. Le nombre est parfois énorme !

Slide de Gary Illyes sur le contenu dupliqué. Source : Twitter

Autre slide de Gary Illyes sur le contenu dupliqué. Source : Twitter