Chaque semaine, nous vous proposons une FAQ sur un sujet SEO spécifique. Cette semaine, c'est le Contenu Dupliqué que nous vous présentons au travers de 11 questions les plus fréquemment posées à son sujet, accompagnées de réponses que nous espérons les plus claires, concises et précises possible. Et sans duplication, bien sûr ;-)...

  

FAQ sur le Contenu Dupliqué (Duplicate Content)

   

👭 Le contenu dupliqué, c'est quoi ?

Le Contenu Dupliqué (ou Duplicate Content en anglais) représente le fait qu'un moteur de recherche va trouver, à l'intérieur d'un site ou sur le Web, deux (ou plus) contenus identiques, proches ou similaires. Pour éviter de prendre en compte plusieurs versions d'un même contenu, le moteur n'en choisira la plupart du temps qu'une version, celle qui lui semble être l'originale et n'explorera pas (ou délaissera) les autres. C'est donc la version que le moteur considère comme originale (appelée «canonique ») qui obtiendra la visibilité.

👬 Comment les moteurs reconnaissent-ils le contenu dupliqué ?

Par défaut, et sans apport d'autres signaux, Google se base sur deux critères : la date de première découverte (premier crawl : a priori il devrait crawler l'original avant les copies éventuelles) et le PageRank de la page (celle qui aura les liens de meilleure qualité sera considérée comme canonique).

👭 Est-ce que ça concerne le contenu identique ou similaire ?

On parle en anglais de « duplicate content » ou de « near duplicate content », donc de contenus soit identiques, soit proches, mais pas obligatoirement équivalents. Un usage (qui n'est pas une représentation exacte du processus réel, mais qui donne une bonne vision en pratique de la situation) dit qu'il faut être en-dessous de 70% de similarité entre deux textes pour qu'ils ne soient pas dans un contexte de contenu dupliqué. Des outils comme celui de Copyscape permettent de calculer ce pourcentage de similarité.

👬 Quelles différences entre contenus dupliqués internes et externes ?

D'une façon générale, aucun. Le contenu dupliqué peut être interne (deux contenus identiques ou similaires sur le même site, le même nom de domaine) ou externe (deux contenus identiques ou similaires sur deux sites, deux noms de domaine différents). Le concept est le même et les solutions également.

👭 Les moteurs de recherche pénalisent-ils le contenu dupliqué ?

Non, pas du tout. Ni pour le contenu dupliqué interne, ni pour l'externe. Mais en interne, cela gaspille parfois beaucoup de « budget crawl » pour rien. Et en externe, on perdra de la visibilité sur la page en question si elle n'est pas choisie comme canonique par Google. Mais il n'y a pas de « pénalité » au sens de « punition pour mauvaises pratiques » par les moteurs, c'est un mythe SEO.

👬 Comment gérer le contenu dupliqué ?

Le plus souvent, le contenu dupliqué est géré par la balise canonical qui va indiquer, dans la page dupliquée, l'URL de la page canonique dont elle est la copie. Plus d'informations ici sur cette balise.

👭 Google est-il obligé de tenir compte du contenu de la balise Canonical ?

Non. Dans un certain nombre de cas, Google va lire le contenu de la balise Canonical mais il pourra prendre une autre décision, selon ses algorithmes, pour indexer, choisir ou pas telle ou telle page comme canonique. La balise Canonical est une information fournie à Google, mais il peut ne pas suivre cette indication.

👬 Qu'est-ce que le DUST et le Self-Canonical ?

Le DUST (Duplicate URL, Same Text) représente le fait qu'une même page canonique peut être accessible sous plusieurs URL différentes. Pour éviter ce problème, on va intégrer dans cette page une balise canonial en « self canonical », c'est-à-dire indiquant l'URL canonique de la page. Cela signifiera que si Google trouve ce contenu sous une URL différente (par exemple avec des paramètres), il va la relier à l'URL canonique se trouvant dans la balise canonical. Plus d'informations ici.

👭 Un contenu traduit peut-il être considéré comme dupliqué ?

Non. Un même contenu mais traduit dans 2 langues différentes n'est pas considéré comme du contenu dupliqué. Plus d'explications ici.

👬 Un fichier PDF peut-il être considéré comme dupliqué par rapport à son équivalent web ?

Oui. En général, on préfère dans ce cas indexer la version web (page HTML), plus facilement optimisable en SEO, et désindexer le fichier PDF. Plus d'explications ici.

👭 Le contenu dupliqué est-il un phénomène répandu ?

Oui. En 2015, Google estimait que 60% du Web était copié/dupliqué. Rien que ça ! Il y a peu de chances que la situation soit meilleure aujourd'hui. Notons qu'en 2013, ce chiffre n'était que de 25%
  

Near Duplicate Content. Source : DR