Google a publié dernièrement un podcast très intéressant qui explique la façon dont il détecte et traite le contenu dupliqué, intrasite et intersite. Voici une petite vidéo qui met tout cela en images.

Suite à la publication récente du podcast intitulé "Search Off the record" par quatre googlers (podcast qui a fait l'objet d'un article sur Abondance), il nous a semblé intéressant d'expliquer à nouveau les indications que Google a fourni à ce sujet à l'aide d'une vidéo...

Voici donc le parcours d'identification par le moteur du "duplicate content" à l'aide de calcul de checksum, puis la détection du contenu original (canonique) pour savoir quelle page aura la visibilité, le tout expliqué en images.

Nous avons donc essayé de résumer notre vision du sujet dans cette 171e vidéo Abondance :

Le Contenu Dupliqué selon Google. Vidéo N°171 proposée par Olivier Andrieu (Abondance). Source : Abondance

Transcript de la vidéo "Le Contenu Dupliqué selon Google" :

Bonjour et bienvenue dans cette 171e vidéo Abondance dans laquelle je voulais vous parler du contenu dupliqué selon Google, puisque Google a donné un certain nombre d'informations cette semaine sur le contenu dupliqué. J'en ai fait un article sur Abondance également, mais je me disais que c'était peut-être intéressant aussi de présenter ça sous une forme un petit peu plus visuelle, qui permet également de comprendre comment Google identifie et traite le contenu dupliqué lorsqu'il crawle le web.

Alors qu'est-ce qui s'est passé ? Donc il y a quelques jours : quatre googlers, je crois qu'ils sont à peu près tous à Google Zurich, discutaient dans un podcast qui s'appelle "Search off the record" - je mettrai l'URL de ce podcast dans l'article qui présente cette vidéo sur le site Abondance - et dans ce podcast, ils expliquent un certain nombre de choses et notamment comment le moteur traite le contenu dupliqué. J'ai essayé de représenter ça sous la forme d'un certain nombre de slides.

Alors qu'est-ce qui se passe à ce niveau-là ? Google, pour chaque page identifiée sur le Web, va calculer ce qu'on appelle un "checksum", une espèce d'empreinte digitale - digital au sens numérique , une empreinte numérique de la page qui est une représentation numérique du contenu de la page et pour ça, il va se focaliser sur le contenu éditorial, donc il va enlever le header, le footer, le menu de navigation, les sidebars, bref tout ce qui est autour du contenu. Il l'enlève et se focalise sur le contenu éditorial. Sur la détection du contenu dupliqué intrasite, sur le même site, ça pose moins de problèmes parce qu'on a souvent la même charte graphique, par contre de site à site ça peut être complètement différent ce qu'il y a autour, donc c'est vraiment important de supprimer tout ce qu'il y a autour. Je précise aussi que tout ce que je vais dire dans cette vidéo va pour le contenu intrasite, le contenu dupliqué au sein d'un même site, mais aussi intersite, sur des sites différents. Les systèmes de détection et de traitement sont les mêmes chez Google. Le contenu dupliqué c'est du contenu dupliqué.

Donc il y a un checksum qui va être calculé pour un contenu qui correspond à une page. Je prends cette page ici pour laquelle j'ai représenté le checksum sous la forme d'un QRcode. Alors on est bien d'accord que ce n'est pas un QRcode pour de vrai hein, c'est juste une symbolique que j'ai utilisée ici pour représenter le checksum. Ça ne me semblait finalement pas si loin en termes d'image pour représenter un checksum. Cette page là, elle a un checksum, représenté graphiquement ici.

Le robot va trouver une autre page à gauche ici sur le site de France info qui parle de la météo dans les Bouches du Rhône. Google va calculer son checksum et on voit que les deux sont complètement différents. C'est normal, les deux contenus sont complètement différents. Pas de soucis, il n'y a pas de contenu dupliqué.

On continue avec le site 20 minutes cette fois qui parle du même sujet avec un titre assez proche et on voit que les checksums sont assez proches je les ai mis en orange pour dire que, tiens, c'est peut-être ce qu'on appelle du "near duplicate content", du contenu proche, pas identique mais proche, et là on peut arriver sur des problématiques de contenu dupliqué en fonction du taux de similarité finalement entre les contenus. Donc là attention, petite alerte, avertissement est-ce qu'il y a du duplicate ou pas ? C'est Google qui va regarder...

Et puis là bim ! les deux articles sont identiques ou quasiment identiques à un pouillem près, et là je les ai mis en rouge pour dire : attention, les deux contenus éditoriaux sont exactement ou quasiment les mêmes a x%, donc Google détecte du duplicate et donc là ok les checksums étant très proches, voire identiques, les pages sont considérées comme étant du contenu dupliqué. Étape suivante : le moteur va faire un cluster - c'est un terme dont on parle beaucoup en ce moment mais là c'est finalement un "enclos" où le moteur va rassembler toutes les pages qui ont le même checksum et une fois qu'il a fait ça, il va essayer de désigner quelle est l'URL canonique, quelle est la page canonique (l'original) dans cet ensemble.

Google donne un certain nombre d'indications sur le fait qu'il utilise une vingtaine de critères dont bien sûr la similarité, le taux de similarité dans le contenu exploré, le PageRank, la popularité de la page : est-ce que la page la plus populaire a un petit plus, un boost ? S'il ya une version https et une version http de la même page ? C'est la version https qui sera prise en compte. Le sitemap xml : est-ce que l'URL est dans le sitemap xml du site ? Car normalement, dans le Sitemap xml on doit indiquer les URL canoniques et bien sûr le contenu de la balise canonical de la page qui va indiquer si celle-ci et dupliquée ou canonique. Google ne suit pas aveuglément le contenu de la balise canonical, c'est lui qui va faire son propre système avec ce qu'il trouve dans la balise canonical plus d'autres signaux.

Dans le podcast, à ma connaissance, Google ne parle pas de la date de 1er crawl, la date de découverte de la page alors que finalement jusqu'à maintenant - c'est cet aspect là qui est assez nouveau je pense - parce que jusqu'à maintenant Google disait que grosso modo pour définir l'URL canonique, il prenait en compte la date de premier crawl et le PageRank, deux critères seulement. Maintenant on voit qu'il ya vingt critères. Peut-être qu'ils n'en parlaient pas avant, etc. Bref, c'est un peu plus complexe et derrière il y a un algorithme de machine learning, bien sûr ça ne se fait pas à la main :-). Il y a un algorithme d'apprentissage automatique qui va essayer d'identifier sur la base de tous ces critères quelle est l'URL canonique.

Si Google ne parle pas de la date de 1er crawl, je pense que c'est aussi parce que le podcast parle beaucoup du contenu dupliqué intrasite, à l'intérieur d'un site, et c'est peut-être un critère moins fort que pour l'intersites, mais je pense quand même que la date de 1er crawl doit jouer d'une façon ou d'une autre, notamment pour du contenu dupliqué intersites. Avec tous ces algorithmes, Google va identifier la page canonique et ce sera elle donc qui aura la visibilité, ce sera elle qui sera analysée, classée, bref c'est elle qui rentrera dans l'algorithme de ranking derrière pour se positionner à telle ou telle position.

Voilà un petit peu tout le processus de détection, d'identification et de traitement du contenu dupliqué par Google.

Merci de m'avoir écouté 🙂 Je vous engage à revoir les autres vidéos que j'ai faites sur le contenu dupliqué : 21, 30, 42, 59, 144 - ça commence à faire pas mal de vidéos sur le sujet - Merci beaucoup et je vous dis à très bientôt pour une nouvelle vidéo Abondance ! Merci et au revoir 🙂

  

  Autres vidéos touchant à ce sujet

 

   Articles complémentaires (listés par ordre chronologique)

 

   Notre Chaîne YouTube

N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons.