Goossips : Site de test, Rich Snippet, URL, Cloaking, Sitemap XML, Liens, Attributs et Search Console

Quelques infos sur Google et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Comment éviter qu'un site de pré-prod soit indexé par Google ? Pourquoi un site ne voit-il pas ses rich snippets affichés alors qu'il a intégré les codes correspondants ? Les mots clés dans l'intitulé des URL sont-ils importants ? Rediriger un internaute sur un serveur spécifique en fonction de la charge est-il considéré comme du cloaking ? Comment un Sitemap XML peut-il avoir dans la Search Console plus d'URL indexées que soumises ? Et quels sont les champs importants dans ces Sitemaps ? Les liens externes ont-ils plus de poids que les internes ? Que fait Google quand il lit un attribut erroné dans une balise HTML ? Etc.

Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, Google+, forums, conférences, etc.). Donc "gossips" (rumeur) + Google = "Goosssips" 🙂 La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.

 

 Site de test indexé
John Mueller a posté un assez long message sur Google+ sur la meilleure façon de ne pas voir un site de test (pré-prod) indexé par Google, comme on le voit hélas si souvent. Si cette mésaventure vous arrive, le plus rapide selon John est de passer par la Search Console et d'utiliser un système de blocage par mot de passe plutôt que par des noindex ou le robots.txt, voire un système de whitelisting d'adresse IP.
Notre avis : C'est clair, le nombre de sites de test indexés par Google est énorme. Et les façons d'éviter ce type de problème pourtant très nombreuses mais hélas pas toujours mises en place...
Taux de fiablité :
Source : Google+

 

 Rich Snippet
John Mueller a indiqué qu'il pouvait y avoir 3 raisons pour que des rich snippets (ou rich cards) n'apparaissent pas dans les SERP pour un site : un code techniquement incorrect, un problème de recommandations officielles (guidelines) non suivies - donc du spam - ou le fait que la qualité du site n'était pas considérée comme suffisante.
Notre avis : On peut y rajouter souvent un netlinking de faible qualité. Mais peut-être ce critère est-il inclus dans la notion de "qualité du site" énoncée par John ?...
Taux de fiablité :
Source : Search Engine Roundtable

 

 URL
John Mueller a indiqué sur Twitter que l'intitulé de l'URL (le fait que l'arborescence soit indiquée dans l'adresse d'une page, contrairement à un site où toutes les URL seraient à la racine, par exemple), n'avait qu'une importance très faible (niveau 1 sur 7) pour l'algorithme de Google et qu'il valait mieux éviter tout changement d'URL qui prend toujours beaucoup de temps pour être pris en compte par le moteur.
Notre avis : On est assez d'accord avec ça. En fait, nous n'avons jamais vraiment vu de différence entre des URL de type www.adressedusite.com/nomalaracine.html et www.adressedusite.com/repertoire1/repertoire2/nomalaracine.html en termes de pertinence SEO (en revanche, une URL plus longue peut fournir plus d'informations à l'internaute sur l'endroit où il se trouve sur le site ; Mais, revers de la médaille, cela pourra poser des soucis supplémentaires de duplicate content). En revanche, John, pourquoi noter les critères sur 7 et pas sur 5 ou 10 ? ;-)...
Taux de fiablité :
Source : Search Engine Roundtable

 

 Cloaking
John Mueller a indiqué sur Twitter que le fait de rediriger un internaute sur tel ou tel serveur plus rapide en fonction de la charge constatée à un instant T n'était pas considéré comme du cloaking.
Notre avis : Cela semble tout ce qu'il y a de plus logique...
Taux de fiablité :
Source : Search Engine Roundtable

 

 Sitemap XML
Un internaute a fait remarquer à John Mueller que, dans sa Search Console, le rapport sur les Sitemaps XML indiquait qu'il y avait plus d'URL indexées que d'URL dans le Sitemap. John a répondu que cela venait certainement du fait qu'une même URL était soumise dans plusieurs Sitemaps différents...
Notre avis : D'un côté il n'est pas logique de soumettre la même URL dans plusieurs Sitemaps différents. C'est donc une erreur du webmaster. D'un autre côté, les développeurs de la Search Console auraient également dû prévoir ce bug (car c'est un bug)...
Taux de fiablité :
Source : Search Engine Roundtable

 

 Sitemap XML (bis)
John Mueller a expliqué sur Twitter que dans les fichiers XML, les deux champs les plus importants étaient l'URL (<loc>) et la date de dernière modification (<lastmod>).
Notre avis : Oui, bon, déjà s'il y a les URL des pages importantes et de façon exhaustive, c'est déjà pas mal 😉 A côté de ça, un Sitemap spécifique avec un fil RSS pour les nouveautés "chaudes" sera peut-être plus intéressant. A noter qu'il ne s'agit pas ici de la même chose que la balise last-modified dont il était question la semaine dernière.
Taux de fiablité :
Source : Search Engine Roundtable

 

 Liens internes et externes
A la question "Existe-t-il des différences de traitement par Google entre les liens internes et externes ?", John Mueller a répondu : "définitivement".
Notre avis : On s'en doutait un peu 🙂 Les liens externes ont plus de poids dans le calcul du PageRank que les liens internes par exemple. Mai s bon, John Mueller n'en a pas beaucoup dit plus à ce niveau ;-)...
Taux de fiablité :
Source : Search Engine Roundtable

 

 Attributs erronés
John Mueller a expliqué sur Twitter que lorsque Google "parse" (analyse) le code HTML d'une page, les attributs erronés (mal codes, inexistants, non standards...) d'une balise sont en général ignorés.
Notre avis : Logique. Et que pourrait-il faire d'autre ?...
Taux de fiablité :
Source : Search Engine Roundtable

 

 Search Console
Le rendu de page web dans la Search Console (zone "Exploration > Explorer comme Google") s'arrête au 10 000ème pixel selon le test d'un internaute. Mais, bien sûr, tout le code HTML est crawlé et indexé. C'est juste l'image de la page dans cette fonctionnalité de la Search Console qui est limitée...
Notre avis : 10 000 pixels, ça laisse de la marge ;-)...
Taux de fiablité :
Source : Search Engine Roundtable

 

logo-infos-google
Goossip (Infos Google).
Source de l'image : Google