Nous continuons notre série de questions/réponses avec Google en abordant un point un peu plus technique dans le domaine du "duplicate content" : le DUST (Duplicate URL, Same Text).

En effet, l'une des différentes formes de "duplicate content" que l'on a à traiter assez souvent en SEO est le DUST : Duplicate URL, Same Text, c'est-à-dire le fait qu'une même page web soit disponible sous plusieurs URL différentes comme :

http://www.votresite.com/
http://www.votresite.com (sans "/")
http://www.votresite.com/index.html
http://www.votresite.com/index.html?param=1
http://www.votresite.com/index.html?sid=08876766RT5
Etc.

Le problème ici est que le moteur voit non plus une seule page, mais autant de pages qu'il existe d'URL.
Ainsi, si une de ces URL a 3 backlinks, l'autre 4, une autre 2, la suivante 3 et la dernière 5, on ne se retrouve pas dans un situation où vous avez une seule page qui hérite de 17 backlinks, mais de 5 pages pour lesquelles les backlinks sont inégalement répartis. Pas super efficace pour votre référencement, notamment sur votre page d'accueil ou des pages populaires de votre site...

Comment, donc, montrer aux moteurs de recherche que toutes ces URL correspondent à une seule et même page web ?

- Dans les Google Webmaster Tools, la zone "Configuration du site > Paramètres > Traitement des paramètres" permet d'indiquer certains paramètres (dans l'exemple ci-dessus : "param" et "sid") que le moteur doit ignorer. C'est une première piste.

- Il doit également être possible, de façon complémentaire, d'indiquer dans le code source de la page, la balise "link rel canonical" sous cette forme :

<link rel="canonical" href="http://www.votresite.com/" />

Ainsi, chaque fois que Google lit une des URL ci-dessus, cette balise lui indique que la page en question est dupliquée de la page canonique qui se trouve à l'adresse http://www.votresite.com/. Comme cette balise transfère également les backlinks depuis les pages dupliquées vers la page canonique, le tour est joué (suis-je assez clair ? C'est un point assez complexe à expliquer...)...

Seul point un peu "bizarre" : lorsque Google lit le code HTML de la page http://www.votresite.com/, il y lit que cette page est dupliquée de la page http://www.votresite.com/, c'est-à-dire d'elle-même. Etrange...

Nous avons donc posé la question au service "Search Quality" de Google : qu'en est-il de cette pratique en cas de DUST ? Est-elle valable ?...

Question Abondance : Imaginons que j'aie une page web affichée à l'adresse :
http://www.monsite.com/boutique/fiche-produit.html
et que cette page soit, par exemple, également disponible sous des URL de type :
http://www.monsite.com/boutique/fiche-produit.html&param=1
(ou &param=1 serait par exemple un élément de tracking ou autre).
Pour éviter tout problème de duplicate content, on peut bien sûr utiliser la partie "gestion des paramètres" des Google Webmaster Tools (GWT) et demander à Google d'ignorer le paramètre ayant pour nom "param" dans les URL, ce qui peut résoudre un certain nombre de problèmes.
Cependant, il peut arriver que les paramètres changent souvent ou qu'il soit, pour d'autres raisons, complexe d'utiliser la gestion des paramètres des GWT (exemple : les URL changent mais pas sous forme de paramètres additionnels).
Dans ce cas, peut-on intégrer dans le code HTML de la page une balise "canonical" sous cette forme :
<link rel="canonical" href="http://www.monsite.com/boutique/fiche-produit.html" />
Ce qui permettrait, quels que soient les paramètres additionnels potentiels ou les autres URL éventuelles, de montrer qu'il s'agit de la même page et du même code HTML...
Est-ce que cela fonctionne ?

 

La réponse de Google : Cette démarche est tout à fait correcte et recommandable.
La balise “canonical” sous la forme
<link rel="canonical" href="http://www.monsite.com/boutique/fiche-produit.html" /> permettra de montrer à Googlebot que toutes les URL qui contiennent cette ligne de code présentent un contenu similaire, et qu'il ne faut pas toutes les indexer.
Il est nécessaire d'ajouter l'élément canonique non seulement dans la version favorite, mais également - et éventuellement - dans toutes les autres versions non canoniques de la page.
Pour en savoir plus, j'engage tes lecteurs à regarder cette petite vidéo de Matt Cutts (et notamment cet extrait) :

Notre commentaire : l'emploi de cette balise fonctionne, ce qui est une bonne chose pour éviter tout problème de "duplicate content" de type "DUST". Attention seulement : à l'heure actuelle, Google News ne lit pas la balise "link rel canonical", cela ne fonctionnera donc pas pour cet outil. En revanche, pour Google Web Search, pas de problèmes.
Notons également que la mention "canonical" peut également être indiquée dans les en-têtes HTTP des pages, cela fonctionnera de la même façon...

Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé
7. Sitemaps et nombre d'URL indexées
8. Référencement et redirections 301
9. Google prend-il en compte l'attribut Longdesc ?
10. Le nombre de pages d'un site web indexées par Google
11. Mots clés et Google Webmaster Tools
12. Les 3 chiffres dans les URL sont-ils obligatoires pour être indexé dans Google Actualités ?
13. Google et le Content Spinning