Nous continuons notre série de questions/réponses avec Google en abordant une question qui nous est souvent posée et que nous avons eu maintes fois l'occasion de nous poser également : comment se fait-il que certains mots clés n'apparaissent pas dans l'analyse effectuée par les Google Webmaster Tools pour un site web donné ?

Les Google Webmaster Tools proposent, en effet, dans la rubrique "Votre site sur le Web > Mots clés", un certain nombre de termes "les plus courants trouvés par Google lors de l'exploration de votre site. Ceux-ci fournissent des indications sur l'objet de votre site." Par exemple, ci-contre, vous trouverez les 10 premiers proposés par Google pour le site www.abondance.com.

Cependant, dans cette liste, plusieurs webmasters se sont, à raison, étonné du fait que certains termes, pourtant évidents pour le contenu de leur site et affichés à de très nombreuses reprises dans les textes, n'apparaissaient pas dans cette liste. Nous avons donc posé la question à Google pour en savoir plus...

Question Abondance : Dans les Webmaster Tools, sur quoi se base Google pour proposer le contenu de la rubrique "Votre site sur le Web > Mots clés" ? En effet, dans cette liste, certains termes, pourtant très souvent cités dans un site, ne s'y trouvent pas. Bug, pénalité ou actions spécifique sur ces mots ?
 

La réponse de Google : Si des mots clés attendus ne sont pas répertoriés sur la page "Votre site sur le Web > Mots clés" dans les Outils pour les webmasters, cela peut être dû au fait que Google n'a pas pu explorer et indexer toutes les pages de ce site. Si c'est le cas, la page répertoriant les erreurs d'exploration (zone "Diagnostic > Erreurs d'exploration") pourrait aider à fournir des détails sur le problème trouvé en essayant d'indexer certaines pages.
Il est également possible que Google ait identifié ces mots-clés comme texte passe-partout ou des mots communs et a décidé de les exclure de la liste. Les mots clés exclus varient bien sûr d'un site à l'autre.
Cette liste des mots clés est juste une façon de rendre l'information sur l'exploration des sites accessible, et non pas un signe que ces mots clés sont considérés comme les plus pertinents pour l'indexation et le classement des sites.

Notre commentaire : les mots exclus dans la liste fournie par Google viendraient donc de deux sources : mots clés ignorés pour cause de problème d'indexation et mots clés trop génériques.
Dans les cas que nous avons eu à analyser dernièrement, ce serait plutôt la seconde raison qui serait la plus souvent à retenir (la zone "Erreurs d'exploration" ne renvoyant pas d'informations spécifique sur ce point).
Mais, dans ce cas, comment expliquer que les termes "sites", "site", "recherche" ou "web" soient retenus par Google pour le site Abondance ? Difficile de faire plus "passe-partout" ou "communs"... Pire encore, comment expliquer que, parmi les mots "les plus courants trouvés par Google lors de l'exploration du site", on trouve les termes "twenga" (cité 23 fois seulement dans les milliers de pages du site) et "lcd" (identifié 5 fois) ? N'y aurait-il pas là un relent d'algorithme utilisé pour les liens sponsorisés, pour qu'un comparateur de prix et le nom d'un produit High-Tech (n'ayant que peu de rapports avec le contenu du site) soient ainsi mis en avant ? Etrange en tout cas...
Mais il semble clair que l'algorithme de détection de ces mots clés ne semble pas réellement au point... Peut-être qu'un googler pourrait se pencher sur ce dernier pour améliorer la donne ?

Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé
7. Sitemaps et nombre d'URL indexées
8. Référencement et redirections 301
9. Google prend-il en compte l'attribut Longdesc ?
10. Le nombre de pages d'un site web indexées par Google