Goossips : Sitemaps XML, Commentaires, Machine Learning

Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Comment les Sitemaps XML sont-ils traités par Google ? Comment l'apprentissage automatique (machine learning) est-il utilisé par le moteur ? Les commentaires d'un blog font-il partie du contenu de l'article lui-même ?

Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, Google+, forums, conférences, etc.). Donc "gossips" (rumeur) + Google = "Goossips" 🙂

La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.

 

Sitemaps
John Mueller a expliqué sur Reddit que Google prenait en compte les fichiers Sitemaps XML qui lui faisaient "comme un effet de boisson énergisante" : "Tous les fichiers Sitemap XML d'un site sont importés dans un grand gobelet commun où ils sont mélangés, légèrement agités, puis remis à Googlebot par URL sous la forme d'une boisson énergétique. Peu importe le nombre de fichiers que vous avez envoyés". Il a également rappelé que la date de dernière modification de la page ne devait pas être équivalente à la date à laquelle le fichier Sitemap a été créé.
Source : Search Engine Journal
Taux de fiabilité :
En gros, ça lui donne des aiiiiiles, quoi 😉

 

Machine Learning
Le même John Mueller a expliqué lors d'un hangout pour webmaster un exemple de la façon dont Google peut utiliser des algorithmes de machine learning : ""Ainsi, par exemple, nous utilisons l'apprentissage automatique pour la canonicalisation. Nous avons tous ces critères de pertinence dont nous avons parlé auparavant. Et nous leur donnons des poids individuels. C'est un peu la façon traditionnelle de faire. Et nous disons que la balise "canonical" a ce poids et que la redirection a ce poids et que le maillage interne a ce poids, etc. L'approche traditionnelle serait de dire que nous allons simplement confronter ces poids à ces notes et voir si ça marche. Et si nous voyons que les choses ne marchent pas, nous modifierons un peu ces chiffres pour obtenir le résultat attendu. Avec l'apprentissage automatique, ce que nous pouvons essentiellement faire, c'est dire quel est le résultat que nous voulons obtenir et les algorithmes d'apprentissage automatique doivent calculer ces poids par eux-mêmes."".
Source : Search Engine Roundtable
Taux de fiabilité :
Si on comprend bien (ce qui n'est pas toujours simple avec John), ce sont les algorithmes de machine learning qui caractérisent les poids attribués à chaque critère de pertinence en fonction de la requête, par exemple. Bref, finalement, assez peu de choses nouvelles mais c'est toujours bon d'avoir des confirmations sur ce type de points...

 

Commentaires
John Mueller a expliqué lors d'un hangout que les commentaires, sur un blog, étaient bien sûr lus par le moteur de recherche, et que ce texte faisait partie du "contenu principal", comme s'il faisait partie de la suite de l'article, et non pas comme un contenu "secondaire", annexe, ayant moins de poids.
Source : Search Engine Roundtable
Taux de fiabilité :
Logique. Les commentaires sont essentiels sur un article de presse ou un blog, s'ils sont modérés et de qualité, bien entendu. D'où, d'ailleurs, la charte de qualité des commentaires (ci-dessous) sur Abondance :-)...
Goossips : Sitemaps XML, Commentaires, Machine Learning

Goossips : Sitemaps XML, Commentaires, Machine Learning. Source de l'image : Google