> > Duplicate content : 60% du Web est copié/dupliqué, selon Google

Duplicate content : 60% du Web est copié/dupliqué, selon Google


Duplicate content : 60% du Web est copié/dupliqué, selon Google
4.55 (90.91%) 11 votes

Duplicate content : 60% du Web est copié/dupliqué, selon Google

Gary Illyes a indiqué lors d'une conférence que, parmi les milliers de milliards de pages web que Google connaissait (mais qu'il n'indexait pas obligatoirement), autour de 60% correspondait à du contenu dupliqué (duplicate content), copié d'une page sur l'autre, dans un même site ou sur des sites différents...

Le site TheSEMPost publie une info assez incroyable en reprenant les dires de Gary Illyes qui, lors de sa keynote à l'événement "State of Search" à Dallas (Texas), a indiqué que Google connaissait 120 trillions (ou milliers de milliards) d'URL et que, parmi celles-ci, 60% étaient du contenu dupliqué (duplicate content).

Il faut noter que Google n'indexe pas tout ce contenu, qu'il trie pour n'en garder que la substantifique moëlle qu'il estime pertinente. Le pourcentage n'en reste pas moins énorme !

Le duplicate content au centre des préoccupations SEO

En 2013, Matt Cutts évaluait ce pourcentage autour de 25 à 30%. Ce chiffre aurait donc doublé en seulement deux ans. Une étude du site Raven Tools indiquait également il y a peu que 29% des sites web avaient des problématiques SEO à résoudre autour du duplicate content. Une préoccupation essentielle pour bon nombre de sources d'informations...


Le tweet de Jennifer Slegg tiré de son article sur TheSEMPost. Source de l'image : TheSEMPost

Commentaires : 16
  1. Benoist 20 novembre 2015 at 9 h 29 min

    C'est assez effarant mais on trouve des clones de sites venant de sites russes assez souvent

  2. Marc 20 novembre 2015 at 13 h 23 min

    Bonjour Olivier,
    Ce chiffre n'est peut-etre pas aussi important en France, mais il y en a un autre tout aussi important, 65% de sites "artificiels", réalisés en double ou uniquement destinés a "forcer" leur positionnement dans les moteurs (SEO) ou réalisés pour Adsense (MFA), sans avoir de fonction de représenter une entreprise ou un établissement. Il n'est pas rare que certaines agences SEO possèdent une dizaine ou centaine de sites (blogs, mini site chez des herbergeurs tel que free, mini annuaires etc...).

    Il nous reste a approfondir ce chiffre, mais globalement, en France en tout cas, une bonne partie du web est "factice".

  3. Peters 20 novembre 2015 at 21 h 40 min

    Quid des sites de voitures d'occasion qui ne font que recopier du contenu fourni par une plate-forme ? 90% des résultats fournis par Google sur le mot clé "voitures d'occasion" sur Google.be ne fait que mentionner des sites qui reproduisent le même contenu.
    Quand Google preferre référencer un agrégateur de contenu qu'un fournisseur de contenu ca en dit long sur la volonté de Google de lutter contre le contenu dupliqué.

  4. Richard Picard 20 novembre 2015 at 23 h 40 min

    Le problème du contenu dupliqué devient de plus en plus préoccupant, surtout avec la montée du e-commerce. Car,cela pose un sérieux problème de SEO lorsque le site n'est pas optimisé.

  5. Arcade 21 novembre 2015 at 14 h 41 min

    Merci wikipedia (et tout les wikis indépendants)... le roi du duplicate content !

  6. Florian UGHETTO 22 novembre 2015 at 7 h 44 min

    Reste à savoir quel contenu duppliqué est essentiellement du à des erreurs de redirection .com/index/123 et .com/123 parceque les pb d'url restent à mon avis super importants

  7. Dan 23 novembre 2015 at 13 h 39 min

    Le problème c'est que "plus ça va, plus il y a de duplicate" : tous les petits nouveaux qui arrivent ne publient généralement pas de nouveaux contenus mais ne font que reprendre ce qui existe déjà.

    • Greg 6 janvier 2016 at 11 h 44 min

      @Dan: D'accord avec toi, mais il existe des outils efficaces pour ceux qui sont soucieux de leur référencement. C'est bien pour ça que nous avons développé un outil simple, très précis et gratuit qui permet de tester le duplicate content de textes en français. http://duplicate.primaweb.fr/

      • Olivier Andrieu 6 janvier 2016 at 11 h 57 min

        @ Greg : Je viens de tester l'outil. Vraiment pas terrible non ? Il ne trouve les articles du site Abondance que sur... le site Abondance ??? Alors qu'ils sont repris sur de nombreux autres sites...

        • Greg 6 janvier 2016 at 12 h 09 min

          @Olivier : Merci pour ce retour dont nous tiendrons compte. Pour l'instant cet outil filtre les résultats et affiche le lien le plus pertinent, c'est à dire celui qui contient le plus de duplicate. Effectivement plusieurs résultats permettraient à l'utilisateur de faire un comparatif, les modifications sont en cours.

          • Olivier Andrieu 6 janvier 2016 at 14 h 35 min

            Ben oui, parce qu'un outil qui donne la source originale du contenu proposé, je vois pas trop l'intérêt :))) et en tout cas, il ne propose pas un seul lien de duplicate alors que c'est ce qu'on lui demande 🙂

  8. Sympatoche 23 novembre 2015 at 14 h 42 min

    Faire afficher un même contenu dans différents contexte à destination de cibles différentes participe à alimenter ce duplicate content. Existe-t-il des solutions pour ne pas être considéré comme tel, hormis la ré écriture des articles ou le fait de choisir de n'indexer qu'une version de cet article, ce qui peut devenir lourd à gérer.

  9. Cassie 17 décembre 2015 at 8 h 32 min

    C'est vrai qu'avec la rédaction de fiche produits, on a une forte chance d'un taux de duplicate content. Copyscape se charge difficilement pour mon site et j'utilise positeo.com avant la publication des articles. Je me demande s'il y a d'autres outils pour voir le contenu dupliqué ?

    • Kateline 17 décembre 2015 at 10 h 27 min

      Pour le contenu dupliqué interne, il y a Siteliner, même si les résultats ne me semblent pas toujours clairs ou pertinents (il a tendance à indiquer le contenu courant des menus), mais des fois il indique de bonnes pistes. Sinon l'onglet "Améliorations HTML" de la Search Console peut aider aussi, quand on a des Title dupliqués c'est parfois des contenus dupliqués.

  10. Sympatoche 17 décembre 2015 at 20 h 25 min

    L'utilisation des URL canoniques permet au niveau d'un site de classer son contenu dupliqué en une page favorite (principale) et des pages secondaires pour les autres url conduisant au même contenu. Une balise link est à ajouter dans les pages
    , elle pointe sur la page considérée comme la référence. Est-ce une solution suffisante, pour gérer le contenu dupliqué en interne?

  11. julien f. 24 décembre 2015 at 13 h 42 min

    A mon avis il y 3 points : la rédaction de fiche produits, on a une forte chance d'un taux de duplicate content.
    Ensuite le risque lors des redirections
    Les sites qui disent tous la même chose , regardez par exemple le mot Pinel , j´ai un collègue qui a acheté 10 noms de domaines avec le mot clé dedans en pensant que ça va lui rapporter quelque chose alors que ce ne sont que 10 landing pages identiques.

Un site du Réseau Abondance | Olivier Andrieu | Contact | Publicité sur le site