Goossips : Contenu Dupliqué, Désindexation et Core Web Vitals

Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Des intitulés d'URL trop proches peuvent-ils générer un phénomène de contenu dupliqué ? Pour désindexer une page, vaut-il mieux utiliser le fichier robots.txt ou la balise meta robots « noindex » ? Le volume de trafic sur un site web peut-il impacter les notes de Core web Vitals ?

Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, forums, conférences, etc.). Donc « gossips » (rumeur) + Google = « Goossips » 🙂

La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.

  

Contenu Dupliqué et Pattern d'URL
John Mueller a expliqué dans un hangout pour webmasters que le fait que deux pages aient des URL trop proches peut générer un phénomène de contenu dupliqué. En effet, le moteur se base en partie, à ce niveau, sur la détection de patterns (schémas) plus ou moins similaires dans les URL pour éventuellement détecter du duplicate content. cette méthode prédictive peut poser problème si certaines URL sont donc trop proches avec des contenus pourtant différents. En gros, si 2 pages ont du contenu similaire et des URL proches, le moteur peut en déduire que toutes les pages ayant ce pattern d'URL sont également du contenu dupliqué, ce qui n'est pas toujours le cas...
Source : Search Engine Journal
Taux de fiabilité :
Cela peut notamment arriver avec des pages quasiment identiques pour de nombreuses villes différentes et avec le même schéma d'URL. Cela se voit très souvent. Attention donc...

  

Désindexation : Noindex ou Robots.txt ?
John Mueller a expliqué sur Twitter que lorsqu'on veut désindexer une page indexée au préalable par le moteur, il faut utiliser la balise meta robots "noindex" et pas le fichier robots.txt.
Source : Search Engine Roundtable
Taux de fiabilité :
C'est logique : si vous utilisez le fichier robots.txt, Google ne va plus crawler la page et son existence restera indexée (avec messages d'erreur dans la Search Console et snippet neutre dans les SERP). Si vous désirez utiliser le fichier robots.txt, il faut dans un premier temps désindexer avec la balise meta robots, puis utiliser le robots.txt uniquement lorsque vous êtes sûr que la page n'est plus indexée.

   

Core Web Vitals et Trafic
John Mueller a expliqué lors d'un hangout que les scores de Core Web Vitals / Page Experience demandaient, pour être calculés, un minimum de trafic significatif de la part des internautes pour le site en question. Mais à partir de cette limite minimale, le fait qu'il y ait plus ou moins de trafic ne joue plus. Une site à très gros trafic n'aura pas des scores meilleurs qu'un site à faible trafic du simple fait de cette différence du nombre de visites. John en a profité pour rappeler une nième fois que le projet "Core Web Vitals", prévu pour le mois de mai prochain, sera un critère très secondaire de l'algorithme et que la pertinence du contenu de la page reste très majoritaire.
Source : Search Engine Journal
Taux de fiabilité :
On peut quand même penser que lorsque les algorithmes ont beaucoup de data, leurs conclusions sont légèrement plus fiables qu'avec un volume plus "limite". Mais cela réellement jouer à la marge comme impact...

Goossips : Contenu Dupliqué, Désindexation et Core Web Vitals
Goossips : Contenu Dupliqué, Désindexation et Core Web Vitals. Source de l'image : Google