Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Peut-on utiliser un outil de crawl pour bâtir un Sitemap XML ? Existe-t-il une vitesse de chargement idéale pour Google ? Doit-on utiliser le fichier robots.txt pour désindexer les URL à paramètres ?

Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, Google+, forums, conférences, etc.). Donc "gossips" (rumeur) + Google = "Goossips" 🙂

La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.

 

Sitemap XML
John Mueller a indiqué sur Reddit que ce n'était pas une bonne chose que de créer un fichier Sitemap XML sur la base d'un crawl d'un site par un outil tiers, car on peut oublier des URL et cela peut jouer sur le temps de réponse du serveur pendant le crawl.
Source : Search Engine Roundtable
Taux de fiabilité :
Bien sûr qu'il vaut mieux se baser un outil intégré à son CMS et avoir une réelle stratégie de création de Sitemap XML. Mais, aussi incroyable que cela puisse paraître, certains CMs n'ont pas ce type d'outil, notamment des CMS propriétaires. Et dans certains cas, seul le crawl permettra de créer un Sitemap XML. Hélas, trois fois hélas...

 

Vitesse de chargement
Dans une vidéo de la série #AskGoogleWebmasters, John Mueller et Martin Splitt expliquent qu'il n'existe pas une "vitesse de chargement de page idéale" pour Google. En gros, le classement se fait entre des "valeurs" comme "très bonne" ou "très mauvaise", sans plus. Des outils comme ceux de Google ou de GTMetrix, par exemple, vont avant tout fournir des informations sur les points à corriger. Mais, d'une façon générale, il faut se focaliser sur l'internaute et pas sur le SEO en termes de "webperf".
Source : Search Engine Land
Taux de fiabilité :
Rappelons-le pour la 56 498e fois :-), le temps de chargement des pages en général et la Web performance en particulier sont importants pour l'internaute et le crawl par les robots des moteurs, mais l'impact sur le positionnement est très très faible.

 

Paramètres d'URL
John Mueller a expliqué sur Twitter qu'il ne fallait pas utiliser le fichier robots.txt pour désindexer des URL à paramètres au profit de ces mêmes URL sans paramètres, car le moteur ne peut pas canonicaliser des pages et on perd ainsi les liens glanés par les URL à paramètres. Il recommande d'utiliser plutôt les balises "canonical" pour cela et de mettre en place un maillage interne pertinent.
Source : Search Engine Roundtable
Taux de fiabilité :
Sur le principe, John a raison, cependant, l'utilisation du robots.txt peut également être très utile dans un cadre de gestion de "budget crawl". Bannir totalement ce fichier sur des URl à paramètre se réfléchit donc avant action. Ce n'est pas si simple...
Goossips : Sitemap XML, Vitesse de Chargement et Paramètres d'URL
Goossips : Sitemap XML, Vitesse de Chargement et Paramètres d'URL. Source de l'image : Google