Il m'arrive, de temps à autre, de travailler pour des clients - la plupart du temps des "grands comptes" - pour auditer leur site web et tenter de mieux optimiser leur contenu et leur structure pour les moteurs de recherche.

Il s'avère que depuis plusieurs mois, une difficulté importante semble se faire jour de façon importante chez la quasi-totalité d'entre eux : nous sommes à une époque où beaucoup de contenus sont syndiqués. Une société qui détient un contenu éditorial ou un service donné sur le Web le "revend" souvent à des partenaires pour affichage, souvent en marque blanche, sur leur site. Ce type de pratique est courante depuis de nombreux mois. En effet, pourquoi réinventer la roue alors que l'on peut acquérir des "briques" d'informations ou des services d'excellente qualité ailleurs ? C'est également le cas des fils RSS repris sur d'autres sites par exemple. La pratique n'a, bien sûr, rien de choquant, bien au contraire...

Malheureusement, il arrive couramment que, dans un processus de référencement et de positionnement, ce soient les sites qui reprennent le contenu syndiqué qui se positionnent devant la source originale, le plus souvent détentrice des droits. D'où des problèmes évidents de trafic "piraté" de façon souvent involontaire par des tiers partenaires. Quand ce n'est pas une procédure de "Duplicate Content" qui est mise en place par le moteur, faisant disparaître le contenu original dans les limbes d'un index secondaire, le condamnant à une quasi invisibilité...

Or, il faut bien avouer qu'à notre connaissance, cette problématique n'est pas du tout prise en compte actuellement par les moteurs de recherche, de façon visible en tout cas. Il serait intéressant, selon moi, que Google et ses congénères proposent un système permettant de leur signaler la source originale d'un contenu édité sur le Web. Comment ? Je ne sais pas, je l'avoue. Mais il semblerait que le besoin d'un tel système se fasse cruellement sentir aujourd'hui, et de plus en plus, notamment depuis l'explosion du standard RSS.

Les contenus dupliqués peuvent en effet être de natures bien différentes :
- Contenus identiques affichés dans plusieurs sites d'un même groupe.
- Contenus identiques repris à plusieurs endroits d'un même site (cela arrive).
- Contenus syndiqués à des sites partenaires.
- Contenus émanant d'un fil RSS.
- Contenus tout bonnement piratés par des webmasters peu scrupuleux.
- Etc.

Et, parfois, il semble complexe de laisser à de seuls algorithmes le soin de séparer automatiquement le bon grain de l'ivraie et de définir, sans intervention humaine ou de la part de l'éditeur lui-même, la source originelle d'un contenu.

Bien sûr, il est toujours possible de définir, par contrat, qu'un contenu syndiqué ne peut pas être référencé (adjonction de balises meta "robots", utilisation d'un fichier robots.txt adéquat, etc.). Mais il serait bon qu'en 2008, une procédure (via les interfaces pour webmasters des moteurs de recherche ?) soit mise en place pour combattre ce problème qui semble frapper de très, très nombreux sites.

Tout le monde aurait à y gagner, et en premier lieu l'internaute qui aurait à coup sûr à sa disposition un contenu original et donc considéré comme fiable. Même si la procédure à mettre en place ne me semble pas évidente, c'est vrai, ce serait un réel "plus" pour la qualité des résultats renvoyés par les moteurs de recherche actuels... Une bonne résolution pour cette nouvelle année ?