Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces questions : comment distinguer le bon du mauvais crawler ? Pourquoi est-il important de bien configurer son lazy loading ? Pour quelle raison CrUX et Search Console ne présentent-ils pas les mêmes résultats ?
Voici comment distinguer le bon du mauvais crawler
Martin Splitt et Gary Illyes ont récemment mis en avant les attributs indispensables pour un bon crawler :
Attributs d’un bon crawler selon Martin Splitt
- Supporter HTTP/2 pour une meilleure performance et efficacité.
- Déclarer clairement son identité via le user-agent.
- Respecter robots.txt pour ne pas crawler les zones interdites.
- Réduire la fréquence de crawling si le serveur ralentit.
- Prendre en compte les directives de cache.
- Avoir des mécanismes de retry raisonnables si une requête échoue.
- Suivre les redirections correctement.
- Gérer les erreurs de manière élégante.
Bonnes pratiques issues du document IETF (relayées par Gary Illyes)
- Les crawlers doivent absolument supporter et respecter le Robots Exclusion Protocol (robots.txt).
- Ils doivent être identifiables facilement via la chaîne user-agent.
- Leur activité ne doit pas perturber le fonctionnement normal du site.
- Le respect des directives de cache est obligatoire.
- Les crawlers doivent exposer leurs plages d’IP de façon standardisée.
- Une page dédiée doit expliquer comment sont utilisées les données collectées et comment bloquer le crawler.
Source : Search Engine Roundtable
Taux de fiabilité : ⭐⭐⭐ On est d'accord !
Vous l’aurez compris : il y a le bon crawler et le mauvais crawler. Le bon est celui qui se montre respectueux, transparent, identifiable et suit les normes techniques telles que robots.txt et les directives de cache. L'autre, eh bien, c'est le mauvais crawler !
Goossip #2
N’utilisez pas de lazy loading pour les images en haut de page
Dans un récent épisode de Search Off the Record, Martin Splitt met en garde contre l’utilisation du lazy loading pour les images visibles dès l’arrivée sur la page : cela retarde le Largest Contentful Paint (LCP), car le navigateur diffère le chargement de ces images pourtant essentielles. Il faut donc charger normalement les images principales (« hero »), réserver le lazy loading au contenu sous la ligne de flottaison, et vérifier dans la Search Console que les images critiques ont des URLs dans les attributs standards du HTML rendu.
Source : Search Engine Journal
Taux de fiabilité : ⭐⭐⭐ On est d'accord !
Mesuré pour le classement Google, le LCP fait partie des Core Web Vitals. Il est donc important de bien configurer son lazy loading, en le réservant aux ressources secondaires.
Goossip #3
Les résultats Core Web Vitals de CrUX et Search Console diffèrent et c’est normal
CrUX et Search Console montrent souvent des résultats Core Web Vitals différents, car ils mesurent avec des approches distinctes : CrUX agrège les expériences utilisateurs par pages vues (chaque visite compte, favorisant les pages à fort trafic), tandis que Search Console évalue la santé à l’échelle des URLs ou groupes d’URLs, mettant en avant les problèmes sur toutes les parties du site. Aucune méthode n’est « fausse » en soi : chacune apporte un éclairage complémentaire pour prioriser l’optimisation entre l’expérience des visiteurs réels et la couverture technique de toutes les pages.
Source : Search Engine Journal
Taux de fiabilité : ⭐⭐⭐ On est d'accord !
En effet, les deux services offrent des informations complémentaires.