Goossips : PBN, Taille du Code, Désaveu, CSS, WWW, Geo Meta Tag, Moteur Interne, Last-Modified, Noindex/Canonical, Referrer

Quelques infos sur Google et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à cette angoissante question : Google arrive-t-il à détecter les PBN ? Quelle est la taille maximale d'un code source crawlable par Googlebot ? Un site web cité dans un fichier de désaveu est-il impacté négativement par l'algorithme ? Un gros fichier CSS peut-il poser problème en SEO ? Faut-il choisir une adresse avec ou sans 'www' pour son site ? Les métadonnées géographiques sont-elles prises en compte par le moteur ? Pourquoi Google demande-t-il de désindexer les pages de résultats d'un moteur interne ? Google prend-il en compte la balise meta Last-Modified ? Faut-il utiliser conjointement les balises 'noindex' et 'canonical' dans une même page ? Googlebot renvoie-t-il une URL referrer lors de son crawl ? Et oui, tout ça, Google ne chôme pas pendant les vacances :-)...

Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, Google+, forums, conférences, etc.). Donc "gossips" (rumeur) + Google = "Goosssips" 🙂 La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.

 PBN
John Mueller a indiqué dans un hangout que les algorithmes de Google détectaient sans trop de problèmes les PBN et, que pour ceux qui passaient en-dessous des radars, la "webspam team" adoraient plonger dedans...
Notre avis : John Mueller utilise parfaitement la méthode Coué (ou FUD). Quand on voit le nombre de PBN impunis (et parfois pas que "du bien fait") sur le Web, ne serait-ce que francophone, on se rend compte à quel point les équipes du moteur sont en retard à ce niveau. Ce qui ne veut pas dire, bien sûr, qu'un jour ou l'autre, elles ne combleront pas ce retard...
Taux de fiablité :
Source : Twitter

 

 Taille de page
John Mueller a expliqué que la limite de crawl par Googlebot pour une page web était actuellement de 200 Mo (la dernière limite connue, en 2015, était de 10 Mo).
Notre avis : Nous avons laissé un commentaire sur le site SER pour être sûr que cette limite était bien celle du code source et ne concernait donc pas le code source + les images + les fichiers JS et CSS, etc. Car cela n'est bien sûr clairement pas la même chose. Nous n'avons hélas pas eu de réponse...
Taux de fiablité :
Source : Search Engine Roundtable

 

 Désaveu
Gary Illyes a indiqué sur Twitter qu'un site désavoué et donc désigné comme fournissant de liens de faible qualité, n'était pas impacté négativement par la suite par l'algorithme de Google. Les liens qu'il fournit ne sont juste pas pris en compte.
Notre avis : Hummm... On peut difficilement imaginer que Google ne prend pas en compte les données des fichiers de désaveu pour une analyse antispam. Il ne s'agit pas de croire aveuglément tout ce qu'ils contiennent, mais plutôt d'en tirer éventuellement quelques informations après analyse de fiablité...
Taux de fiablité :
Source : Search Engine Roundtable

 

 CSS
John Mueller a indiqué sur Twitter que la taille d'un fichier de feuille de styles (CSS) n'impacte pas l'algorithme du moteur. Il peut faire plusieurs dizaines de Mo.
Notre avis : Bien sûr, l'aspect "temps de chargement de la page" sera, en revanche, impacté, donc l'algorithme de façon indirecte (mais légère). L'internaute, lui, risque de beaucoup moins apprécier...
Taux de fiablité :
Source : Search Engine Roundtable

 

 WWW ou pas
Un internaute a demandé sur Twitter si il fallait privilégier en SEO une adrese en WWW (www.votresite.com) ou pas (votre site.com) pour un site web. Un internaute a répondu que cela n'avait pas d'incidence en SEO. John Mueller a acquiescé.
Notre avis : Logique, vous pouvez faire le choix qui vous semble le meilleur pour votre communication, il n'y aura pas d'impact SEO. Mais n'oubliez pas de rediriger (en 301) l'autre adresse vers celle utilisée ! 😉
Taux de fiablité :
Source : Search Engine Roundtable

 

 Métadonnées géographiques
John Mueller a indiqué que Google ne prenait pas en compte les balises meta de type "geo" (<meta name="geo.position" content="latitude; longitude">, <meta name="geo.placename" content="Place">, <meta name="geo.region">...) et ne les avait probablement jamais prises en compte...
Notre avis : RAS. L'extension (.fr, .ch, .be...), les balises Hreflang et la Search Console sont là pour ce job...
Taux de fiablité :
Source : TheSemPost

 

 Moteur interne
John Mueller a expliqué sur Twitter pourquoi Google demande à ce que les pages de résultats du moteur interne d'un site web soient désindexées : elles créent des espaces de crawl infinis, ce sont souvent des pages de faible qualité et enfin, elles présentent souvent des pages vides d'information (zéro résultat pour la recherche), qui génèrent des soft 404.
Notre avis : Logique. Ces pages de résultats de moteur interne n'ont pas à se retrouver dans les résultats de recherche de Google. Mais la limite entre ce type de page et une liste de produits sur un site e-commerce, par exemple, ou une liste de petites annonces ou d'offres immobilières, n'est pas toujours facile à définir...
Taux de fiablité :
Source : Search Engine Roundtable

 

 Last-Modified
John Mueller a expliqué sur Twitter que Google ignorait la balise meta "Last Modified" (<meta http-equiv="last-modified" content="YYYY-MM-DD">) indiquant la date de dernière modification d'une page. Elle n'a donc aucune utilité en SEO
Notre avis : RAS...
Taux de fiablité :
Source : TheSemPost

 

 Noindex et Canonical
Un internaute a posé la question suivante à John Mueller : "si une page contient à la fois une balise "noindex" et une balise "canonical", la canonical transmet-elle l'interdiction d'indexation à la page canonique ?" John Mueller a semblé bien embêté avec cette question, car elle a déjà, semble-t-il, donné lieu à de nombreuses discussions en interne chez Google. Logiquement, ces deux balises sont contradictoires : l'une (canonical) dit que les deux pages (dupliquée et canonique) doivent être traitées de la même façon, et l'autre (noindex) indique que la dupliquée doit être désindexée. Il serait donc, quelque part, logique, que la canonique le soit aussi... Pour John, utiliser les deux balises conjointement est une erreur.
Notre avis : John Mueller n'est pas très clair dans sa réponse sur la façon dont Google prend en compte ce cas lorsqu'il se produit. Une chose est sûre : utilisez soit la balise "canonical" soit la "noindex", mais pas les deux en même temps !...
Taux de fiablité :
Source : Search Engine Roundtable

 

 Referrer
John Mueller a indiqué sur Twitter que Googlebot, lorsqu'il crawlait une page, ne renvoyait pas une URL referrer, comme un internaute qui naviguerait sur un browser. Une visite de Googlebot s'assimile donc à du trafic direct. Selon lui, un referrer est cependant indiqué pour l'accès aux composants JS, CSS, etc. (mais l'information restait à vérifier selon lui).
Notre avis : Le robot se présente bien sûr avec un user-agent et une adresse IP spécifiques. C'est ainsi qu'on peut le détecter...
Taux de fiablité :
Source : Search Engine Roundtable

 

logo-infos-google
Goossip (Infos Google).
Source de l'image : Google