Nous continuons notre série de questions/réponses avec Google en abordant une question qui nous a dernièrement été posée sur un point précis : les risques de détection de cloaking par Google sur des sites personnalisés.

En effet, Google a souvent communiqué au sujet du cloaking et défini ce qu'il entendait (présenter un contenu différent aux internautes et aux robots du moteur) au travers de ce terme, notamment dans cette vidéo de Matt Cutts :

Présenter un contenu différent aux internautes et à Googlebot est du cloaking et est donc interdit et pénalisé. Certes, mais certains sites personnalisent leur contenu en fonction de certains critères dépendant de l'internaute. Exemples :

- Un site web va présenter la version française d'un site pour un internaute venant avec une adresse IP française et la version anglaise à un visiteur ayant une IP américaine, par exemple. Googlebot, qui arrive avec une IP américaine, aura donc un contenu par défaut différent de celui visualisé par l'internaute français. Ou un site d'information local, par exemple breton, mettra en avant un contenu spécifique de cette région si l'adresse iP est "régionalisée", alors qu'un internaute étranger aura affaire à un contenu général, de niveau national et sans spécificité régionale. Dans tous ces cas, est-ce du cloaking qui est mis en oeuvre ?

- Un internaute déjà client sur un site web aura peut-être une page d'accueil personnalisée en fonction des achats précédemment effectués et des goûts détectés au travers de l'historique client. Exemple typique : ce que fait Amazon pour personnaliser les pages de son site à chacun de ses clients. Là encore, Googlebot et le client d'Amazon n'ont pas accès à la même version des pages. Est-ce donc du cloaking ?

Nous avons donc posé la question au service "Search Quality" de Google : tous ces cas - ou certains d'entre eux - sont-ils considérés comme du cloaking par Google ?...

Question Abondance : Dans le cadre du cloaking, il est clair aujourd'hui que, lorsqu'on lit ou qu'on regarde les vidéos émanant de Google et notamment de Matt Cutts, il n'existe pas de "bon cloaking" et que le moteur de recherche doit avoir accès aux mêmes informations que l'internaute. Ceci est un fait établi.
Cependant, de plus en plus de sites web personnalisent leurs contenus pour l'internaute, en fonction de leur navigation et de leur comportement sur le site ou de leur géolocalisation. Exemple : je viens de Paris (géolocalisation IP), j’ai donc accès à des informations parisiennes. Si je suis localisé comme étant situé à Marseille, des infos marseillaises me seront proposées et ainsi de suite. Et quand Googlebot arrive, il crawlera de son côté une page nationale moins personnalisée. Cette personnalisation peut également s'opérer, comme le font Amazon et bien d'autres, en fonction des derniers achats effectués sur le site, par exemple.
On arrive au constat que,
a priori, ceci peut être considéré comme du cloaking, le moteur ne voyant pas tout à fait ce que voient les internautes "lambda". Pourtant, il s'agit ici d'une notion de service apportant à l’internaute une réponse très ciblée, plus qu’une envie de gagner des positionnements SEO. D'où la question : la personnalisation des contenus peut-elle être considérée comme du cloaking et, par là-même être pénalisée ?

La réponse de Google : Utiliser du contenu dynamique et personnalisé afin d’améliorer l’expérience utilisateur ne pose en général aucun problème. Un site ne sera pas considéré comme faisant du cloaking s'il traite Googlebot de la même manière que n'importe quel utilisateur situé dans la même entité géographique. A l'inverse, un site qui traite de manière différente le user-agent de Googlebot ou son adresse IP uniquement sera considéré comme faisant du cloaking. Cette pratique va à l’encontre de nos consignes de qualité, et est donc susceptible d'avoir des conséquences négatives sur les performances des sites qui s'y emploient.

Exemple :
Un site propose du contenu personnalisé via géolocalisation IP, et fournit des informations différentes aux utilisateurs selon qu'ils viennent de Paris ou de Marseille. Lorsque Googlebot viendra explorer le site, il accèdera à une page nationale moins personnalisée, étant donné que son adresse IP provient des Etats-Unis. Google ne considérera pas cette pratique comme du Cloaking si n'importe quel utilisateur américain est exposé au même contenu que Googlebot. Inversement il s'agira de Cloaking si Googlebot est traité de manière différente que les utilisateurs américains.

Dans le cas d'une personnalisation basée sur un historique client, par exemple, il ne s'agira pas de Cloaking si Googlebot est exposé à la même page qu'un utilisateur qui visite le site pour la première fois, et qui n'a donc pas d'historique de navigation. A l'inverse, si Googlebot est exposé à une page différente que celle proposée à un utilisateur sans historique de navigation, il s'agira de Cloaking.

Remarque : S’il est pertinent que le contenu personnalisé soit accessible via les moteurs de recherche (par exemple s'il s'agit de contenu multilingue), veillez à ce que le contenu soit accessible depuis des URL uniques, et que Googlebot puisse indexer ces différentes URL. Utiliser la même URL pour présenter plusieurs contenus différents détériore dans la plupart des cas la qualité des résultats de recherche et n’est donc pas conseillé. Le cas spécifique du contenu multilingue est discuté plus en détail ici et ."

Notre commentaire : la réponse de Google est claire et somme toute logique : le fait de personnaliser une page en fonction de différents critères de géolocalisation ou d'historique ne constitue pas un phénomène de cloaking et ne sera donc pas pénalisé. Attention donc simplement à faire en sorte que le robot Googlebot crawle, lorsqu'il arrive sur votre site, la même information qu'un internaute considéré comme américain ou non-client (selon le cas) !
Bon référencement !

Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé
7. Sitemaps et nombre d'URL indexées
8. Référencement et redirections 301
9. Google prend-il en compte l'attribut Longdesc ?
10. Le nombre de pages d'un site web indexées par Google
11. Mots clés et Google Webmaster Tools
12. Les 3 chiffres dans les URL sont-ils obligatoires pour être indexé dans Google Actualités ?
13. Google et le Content Spinning
14. Duplicate Content Dust et balise canonical
15. Validation HTML/W3C et positionnement Google
16. Référencement de sites multilingues et risque de duplicate content