Goossips : Canonical, Analytics, Robots.txt et Communiqués de Presse

Quelques infos sur Google et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Chaque page, dans l'index de Google, dispose-t-elle d'une URL canonique associée ? Utiliser Analytics comme outil de mesure d'audience est-il un avantage ou un inconvénient en termes de SEO ? Peut-on demander dans le fichier robots.txt aux spiders de ne pas crawler le fichier robots.txt 🙂 ? Les liens dans les communiqués de presse sont-ils suivis et pris en compte ?

Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, Google+, forums, conférences, etc.). Donc "gossips" (rumeur) + Google = "Goossips" 🙂 La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.

 URL canonique
John Mueller a indiqué sur Twitter et lors d'un hangout que chaque page web, donc chaque URL indexée par le moteur de recherche était associée à une URL canonique, qui pouvait être la même (si la page est elle-même canonique).
Source : Search Engine Roundtable
Taux de fiabilité :
Notre avis : C'est le système du DUST (Duplicate URL, Same Text) qui est ici expliqué. D'où l'importance du fait que, sur un site web, chaque page indexable doit avoir sa balise canonical !
 Analytics
John Mueller a répété pour 345 754ème fois 🙂 que les données Analytics d'un site web ne sont pas prises en compte par l'algorithme de pertinence. De même, le simple fait d'utiliser Analytics comme outil de mesure d'audience ne génère ni pénalité (ce qui serait un comble) ni bonus en termes de SEO.
Source : Search Engine Roundtable
Taux de fiabilité :
Notre avis : Bien sûr. Les données de trafic sur un site seront plus certainement fournies par le navigateur Chrome, mais pas par Analytics.
 Robots.txt
Toujours John Mueller qui a expliqué sur Twitter qu'il était vain d'interdire aux moteurs de crawler le fichier robots.txt en mettant un "Disallow:" sur ce même fichier dans le... robots.txt ??.
Source : Search Engine Roundtable
Taux de fiabilité :
Notre avis : Drôle de mise en abyme... Interdire via le fichier robots.txt le crawl du fichier robots.txt ? Alors, dans ce cas, comment le robot fait-il pour lire l'interdiction de crawl ? Certains webmasters ont quand même parfois des idées saugrenues... 🙂
 Communiqués de presse
Remarque intéressante de John Mueller dans un hangout : lorsque Google détecte qu'une page web reprend un communiqué de presse, la plupart des liens qu'elle contient sont ignorés par le moteur de recherche.
Source : Search Engine Roundtable
Taux de fiabilité :
Notre avis : C'est assez logique, avec tout le spam qu'il y a eu dans ce domaine ces dernières années : faux communiqués de presse bidons, sites-poubelles les regroupant, etc. Cela montre également une tendance forte de Google depuis quelques temps : ignorer les liens spammy plutôt que pénaliser les sites qui les créent ou les reçoivent...
logo-infos-google
Goossip (Infos Google). Source : Google