Selon une étude récente de Bing, 84% des sitemaps ont une balise <lastmod> définie, dont 18% ayant des valeurs <lastmod> incorrectes. Face à ce constat, le moteur a précisé ses recommandations concernant la balise <lastmod> dans la documentation officielle Sitemaps.org pour aider les sites à mieux la définir.
Le Sitemap XML est indispensable pour aider les moteurs de recherche à savoir quand vos pages sont mises à jour. A ce titre, la balise <lastmod> joue un rôle-clé : elle indique la date de dernière mise à jour de chaque page. Ainsi, elle permet aux moteurs de recherche de déterminer la fréquence d'exploration de votre site. Sans cette balise, vous risquez de retarder le crawl de vos pages ou, à l’inverse, de provoquer un crawl excessif car le moteur ne peut pas déterminer avec précision si le contenu a été modifié.
Une étude récente de Bing révèle que parmi les sites web ayant au moins une URL indexée par Bing :
- 58 % des sites ont au moins un Sitemap XML (connu de Bing).
- 84 % de ces sitemaps ont un attribut
défini. - 79% ont des valeurs <lastmod> correctes.
- 18 % ont des valeurs <lastmod> incorrectes.
- 3% ont des valeurs <lastmod> pour seulement certaines des URLs.
- 16% de ces sitemaps n'ont pas d'attribut <lastmod> défini.
- 84 % de ces sitemaps ont un attribut
- 42 % des hôtes n'ont pas de Sitemap XML.
Le problème des balises <lastmod> selon Bing
Le problème le plus répandu avec les valeurs <lastmod> incorrectes est qu'elles sont souvent toutes identiques.
Par exemple :
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2023-01-23</lastmod>
</url>
<url>
<loc>http://www.example.com/catalog?loc=vacation_jupiter</loc>
<lastmod>2023-01-23</lastmod>
</url>
<url>
<loc>http://www.example.com/catalog?loc=vacation_mars</loc>
<lastmod>2023-01-23</lastmod>
</url>
</urlset>
En réalité, la plupart des webmasters interrogés par Bing révèlent que la date indiquée dans les balises <lastmod> correspond à la date de génération du fichier Sitemap XML, plutôt qu’à la date de dernière modification du contenu de chaque URL.
En conséquence, Bing a apporté des améliorations au protocole Sitemaps.org pour plus de clarté :
“Notez que la date doit correspondre à la date de la dernière modification de la page liée, et non à celle de la génération du sitemap.”
De plus, alors qu’il est possible que les pages d’un sitemap aient les mêmes dates (si plusieurs pages sont publiées le même jour), Bing se réserve le droit d’ignorer la balise <lastmod>, s’il considère que les dates sont systématiquement définies à la date du jour.
Comment définir le <lastmod> ?
Pour définir la balise "lastmod" de votre sitemap, vous devez l'inclure dans la balise <url> de chaque page. Cette date doit être au format W3C Datetime. Les formats les plus couramment utilisés sont ceux qui spécifient la date YYYY-MM-DD (exemple 2022-12-28) et ceux qui spécifient la date et l'heure YYYY-MM-DDTh:mm:ssTZD (exemple 2022-12-19T17:15:30+01:00). De plus, elle doit correspondre à la date de la dernière modification de la page.
A noter que la balise "lastmod" doit être mise à jour dès lors que la page est mise à jour pour que les moteurs de recherche puissent comprendre la fréquence de mise à jour et la pertinence de la page. Pour ce faire, il est recommandé de générer vos sitemaps au moins quotidiennement.
Comment Bing utilise-t-il la balise <lastmod> ?
Suite à cette évolution dans les recommandations de Sitemaps.org, Bing réorganise son logiciel de planification de crawl afin de mieux utiliser l’information des balises <lastmod>. Cela permettra d’en améliorer son efficacité en réduisant le crawl inutile de contenus non modifiés et en priorisant le crawl des contenus récemment mis à jour. Déjà implémentée à petite échelle, cette évolution continuera d’être déployée complètement d'ici juin.
Que dit Bing de <changefreq> et <priority> ?
Bing déclare que, tout comme la balise <lastmod>, les balises <changefreq> et <priority> sont rarement bien utilisées par les webmasters : elles ont souvent la même valeur et ne reflètent pas la probabilité qu'une page soit mise à jour ou l'importance relative d'une URL par rapport aux autres. Par conséquent, Bing ne tient pas compte de ces balises. Il en va de même du côté de Google.
Quel impact pour les webmasters ?
Au travers de cette étude menée par Bing auprès des webmasters, il est clair que le moteur cherche à optimiser sa capacité de crawl. Les sites qui publient fréquemment ont tout intérêt à vérifier la bonne utilisation des dates de dernière mise à jour de leurs contenus, ainsi qu'à s’assurer que leurs sitemap soient mis à jour quotidiennement.
A noter que cette communication est alignée avec les consignes existantes de Google Search Central :
« Google ignore les valeurs <priority> et <changefreq>.
Google utilise la valeur <lastmod> si elle est cohérente et vérifiable (par exemple, en comparant la dernière modification de la page). »
Source Bing : Fabrice Canel - Chef de produit principal - Microsoft Bing
Bonjour,
Je me pose une question à laquelle je ne trouve pas de réponse tranchée à propos des fichiers sitemap.
Faut-il déclarer toutes les pages de son site dans le(s) fichier(s) sitemap ? Exemple avec la page « contact », « mentions légales » et autre page n’ayant aucun intérêt d’un point de vue référencement (aucune notoriété).
Formulé différemment, cela peut-il nuire à un site de déclarer des pages ‘sans intérêt’ dans un sitemap ?