Goossips : Sections de Sites, Algorithmes et Liens, Soft 404 et Budget Crawl

Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Google peut-il détecter et gérer différemment certaines sections ou zones d'un site web ? Les algorithmes récents lancés par Google étaient-ils basés en priorité sur l'analyse des backlinks ? Les URL en 404, 410 et Soft 404 gaspillent-elles du budget crawl ?

Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, forums, conférences, etc.). Donc « gossips » (rumeur) + Google = « Goossips » 🙂

La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.

  

Sections de sites
Gary Illyes a expliqué lors d'un récent podcast « Search Off the Record » que Google pouvait analyser certaines parties ou sections de sites et ainsi crawler plus souvent telle ou telle zone et moins visiter telle autre. Google déduira ainsi en partant de l'ensemble d'un site les zones qu'il doit explorer plus fréquemment. Par exemple, s'il y a un répertoire de blog et que des signaux indiquent qu'il est populaire/important, Google pourrait vouloir l'explorer plus souvent. « Et ce n'est pas seulement la fréquence des mises à jour, ajoute-t-il, la qualité est également prise en compte. Par exemple, si Google voit qu'un certain répertoire est populaire, et que les gens en parlent et font des liens vers lui, alors c'est un signal que les gens aiment ce répertoire. »
Source : Search Engine Roundtable
Taux de fiabilité :
C'est très clair. C'est d'ailleurs pour cela, le plus souvent, qu'on voit plus ou moins d'URL dans la Search Console pour les rapports « Explorée, actuellement non indexée » ou « Détectée, actuellement non explorée »...

  

Algorithme et liens
John Mueller a indiqué sur Twitter qu'à sa connaissance, aucune mise à jour récente de l'algorithme du moteur n'était axée sur l'analyse approfondie des liens, en dehors des algorithmes de lutte contre le spam, bien entendu.
Source : Search Engine Roundtable
Taux de fiabilité :
Les techniques black-hat étant fortement (bien que partiellement) basées sur la création de liens factices, il est normal que Google continue à accroître sa lutte pour les détecter. Mais a priori, pas dans le but de détecter les pages de meilleure qualité...

  

Soft 404 et budget crawl
Gary Illyes a expliqué lors du même podcast « Search Off the Record » que ci-dessus que les URL qui sont considérées par Google comme des « Sof 404 » gaspillaient du budget crawl. En revanche, selon lui, ce n'est pas le cas des URL en 404 et des 410.
Source : Search Engine Roundtable
Taux de fiabilité :
C'est logique : une page en Soft 404 est crawlée pour analyser le contenu, alors que pour les 404 et les 410, seul le code de réponse HTTP est récupéré et analysé. Donc pas de crawl...

  

Goossips : Sections de Sites, Algorithmes et Liens, Soft 404 et Budget Crawl
Goossips : Sections de Sites, Algorithmes et Liens, Soft 404 et Budget Crawls. Source : Google