Duplicate Content Dust et balise canonical - (Questions/réponses avec Google #14)

   
(English version - machine translation)

Nous continuons notre série de questions/réponses avec Google en abordant un point un peu plus technique dans le domaine du "duplicate content" : le DUST (Duplicate URL, Same Text).

En effet, l'une des différentes formes de "duplicate content" que l'on a à traiter assez souvent en SEO est le DUST : Duplicate URL, Same Text, c'est-à-dire le fait qu'une même page web soit disponible sous plusieurs URL différentes comme :

http://www.votresite.com/
http://www.votresite.com (sans "/")
http://www.votresite.com/index.html
http://www.votresite.com/index.html?param=1
http://www.votresite.com/index.html?sid=08876766RT5
Etc.

Le problème ici est que le moteur voit non plus une seule page, mais autant de pages qu'il existe d'URL.
Ainsi, si une de ces URL a 3 backlinks, l'autre 4, une autre 2, la suivante 3 et la dernière 5, on ne se retrouve pas dans un situation où vous avez une seule page qui hérite de 17 backlinks, mais de 5 pages pour lesquelles les backlinks sont inégalement répartis. Pas super efficace pour votre référencement, notamment sur votre page d'accueil ou des pages populaires de votre site...

Comment, donc, montrer aux moteurs de recherche que toutes ces URL correspondent à une seule et même page web ?

- Dans les Google Webmaster Tools, la zone "Configuration du site > Paramètres > Traitement des paramètres" permet d'indiquer certains paramètres (dans l'exemple ci-dessus : "param" et "sid") que le moteur doit ignorer. C'est une première piste.

- Il doit également être possible, de façon complémentaire, d'indiquer dans le code source de la page, la balise "link rel canonical" sous cette forme :

<link rel="canonical" href="http://www.votresite.com/" />

Ainsi, chaque fois que Google lit une des URL ci-dessus, cette balise lui indique que la page en question est dupliquée de la page canonique qui se trouve à l'adresse http://www.votresite.com/. Comme cette balise transfère également les backlinks depuis les pages dupliquées vers la page canonique, le tour est joué (suis-je assez clair ? C'est un point assez complexe à expliquer...)...

Seul point un peu "bizarre" : lorsque Google lit le code HTML de la page http://www.votresite.com/, il y lit que cette page est dupliquée de la page http://www.votresite.com/, c'est-à-dire d'elle-même. Etrange...

Nous avons donc posé la question au service "Search Quality" de Google : qu'en est-il de cette pratique en cas de DUST ? Est-elle valable ?...

Question Abondance : Imaginons que j'aie une page web affichée à l'adresse :
http://www.monsite.com/boutique/fiche-produit.html
et que cette page soit, par exemple, également disponible sous des URL de type :
http://www.monsite.com/boutique/fiche-produit.html&param=1
(ou &param=1 serait par exemple un élément de tracking ou autre).
Pour éviter tout problème de duplicate content, on peut bien sûr utiliser la partie "gestion des paramètres" des Google Webmaster Tools (GWT) et demander à Google d'ignorer le paramètre ayant pour nom "param" dans les URL, ce qui peut résoudre un certain nombre de problèmes.
Cependant, il peut arriver que les paramètres changent souvent ou qu'il soit, pour d'autres raisons, complexe d'utiliser la gestion des paramètres des GWT (exemple : les URL changent mais pas sous forme de paramètres additionnels).
Dans ce cas, peut-on intégrer dans le code HTML de la page une balise "canonical" sous cette forme :
<link rel="canonical" href="http://www.monsite.com/boutique/fiche-produit.html" />
Ce qui permettrait, quels que soient les paramètres additionnels potentiels ou les autres URL éventuelles, de montrer qu'il s'agit de la même page et du même code HTML...
Est-ce que cela fonctionne ?

 

La réponse de Google : Cette démarche est tout à fait correcte et recommandable.
La balise “canonical” sous la forme
<link rel="canonical" href="http://www.monsite.com/boutique/fiche-produit.html" /> permettra de montrer à Googlebot que toutes les URL qui contiennent cette ligne de code présentent un contenu similaire, et qu'il ne faut pas toutes les indexer.
Il est nécessaire d'ajouter l'élément canonique non seulement dans la version favorite, mais également - et éventuellement - dans toutes les autres versions non canoniques de la page.
Pour en savoir plus, j'engage tes lecteurs à regarder cette petite vidéo de Matt Cutts (et notamment cet extrait) :

Notre commentaire : l'emploi de cette balise fonctionne, ce qui est une bonne chose pour éviter tout problème de "duplicate content" de type "DUST". Attention seulement : à l'heure actuelle, Google News ne lit pas la balise "link rel canonical", cela ne fonctionnera donc pas pour cet outil. En revanche, pour Google Web Search, pas de problèmes.
Notons également que la mention "canonical" peut également être indiquée dans les en-têtes HTTP des pages, cela fonctionnera de la même façon...

Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé
7. Sitemaps et nombre d'URL indexées
8. Référencement et redirections 301
9. Google prend-il en compte l'attribut Longdesc ?
10. Le nombre de pages d'un site web indexées par Google
11. Mots clés et Google Webmaster Tools
12. Les 3 chiffres dans les URL sont-ils obligatoires pour être indexé dans Google Actualités ?
13. Google et le Content Spinning

Commentaires : 10
  1. Marc L. 23 juin 2011 at 12 h 55 min Reply

    Est-ce que cela est aussi valable d'un nom de domaine vers un autre?

  2. Abondance 23 juin 2011 at 12 h 57 min Reply

    EA mon avis oui, il n'y a pas de raison...

  3. Anonymous 24 juin 2011 at 8 h 41 min Reply

    Bonjour,

    Est-ce que cette technique peut être utilisée pour des URLs identiques, mais l'une avec un / à la fin, et l'autre non :

    http://www.monsite.com/
    http://www.monsite.com

    Merci

  4. Abondance 24 juin 2011 at 12 h 28 min Reply

    Oui tout à fait.
    cdt

  5. Anonymous 24 juin 2011 at 15 h 23 min Reply

    Bonjour, je me permets de commenter sur ce sujet.
    L'utilisation du Tag canonical pour ses 2 URLs avec et sans (/) pour la racine du site n'est pas une utilisation valide.
    La réponse vient du protocole HTTP.
    Lors d'une requête HTTP pour la racine du site "www.monsite.com" on a par exemple :
    GET / HTTP/1.1
    Host: http://www.monsite.com

    Donc lors d'une demande à un navigateur (client HTTP) d'accéder à http://www.monsite.com sans le slash, il sait très bien qu'il doit demander la racine (GET / : qui représente la racine)

    D'autant plus que cela n'a pas de sens d'utiliser une canonical entre les 2 URL car on ne peut pas ajouter l'élément canonique sur la page favorite puisque les 2 "représentent" la racine.

    Cordialement

  6. Abondance 25 juin 2011 at 5 h 33 min Reply

    @Anonym : oui tout à fait, comme http://www.monsite.com/index.html par exemple qui représentera également un cas de DUST...

  7. Le Référenceur Masqué 27 juin 2011 at 13 h 15 min Reply

    Bonjour Olivier,
    Il me semblait que la balise canonique ne diffusait pas la popularité. Aurait-ce changé ?
    Car si elle diffuse les BL, ça doit sous-entendre la popularité qui va avec.

    Bonne journée

  8. Abondance 27 juin 2011 at 16 h 46 min Reply

    Bonjour
    Oui tout à fait, le PageRank est diffusé au travers de cette balise.
    cdt

  9. Idhem 4 novembre 2011 at 15 h 25 min Reply

    Bonjour,

    S'il y a une redirection depuis l'URL http://monsite.com vers http://www.monsite.com par exemple, cela dispense-t-il du tag canonical?
    Vaut-il mieux éviter la redirection et opter pour un duplicate content avec tag canonical?

  10. Amélie 18 mars 2013 at 17 h 44 min Reply

    Bonjour,

    Est-ce que cette balise peut être utilisée pour des sous-domaines qui reprennent le contenu d'un domaine ?

    par exemple

    sousdomaine.monsite.com
    qui reprend tout le contenu de monsite.com

    merci !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *


*

Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings