HTML

Les fichiers Sitemap XML proposent depuis 2005 aux principaux moteurs de recherche une liste des différentes pages d'un site web. Mais pourquoi cette liste ne serait-elle pas mieux structurée hiérarchiquement ?...

Depuis 2005, Google et d'autres moteurs de recherche proposent aux éditeurs de sites web de mettre en place des fichiers Sitemaps au format XML afin de leur permettre de mieux indexer les sites web qu'ils doivent crawler au quotidien. Un fichier Sitemap "classique" a cette forme :

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>

Ces fichiers XML contiennent plusieurs champs :

- L'URL des pages (loc), champ obligatoire bien sûr puisqu'il fournit aux moteurs les adresses de chaque page importante du site.

- Des champs facultatifs : la fréquence de mise à jour (changefreq), la date de dernière modification (lastmod) et la priorité d'indexation (priority). Avouons-le : l'intérêt de ces trois champs est discutable : une fréquence de mise à jour est très complexe à définir (que se passe-t-il si une page est parfois mise à jour quotidiennement puis mensuellement pendant un certain laps de temps ?), il en est de même pour la priorité d'indexation (sur quels critères la définir ?) et, pour ce qui est de la date de dernière mise à jour, on peut penser que Google se débrouille très bien pour la trouver sans l'aide du Sitemap (il en est de même de la fréquence de mise à jour d'ailleurs). D'autant plus que, parfois, il est indiqué la date du jour pour toutes les pages comme date de dernière modification. Bref, ces champs sont facultatifs et peuvent facilement être supprimés du Sitemap final sans réelle incidence sur l'indexation d'un site.

- Au fil des ans, il est devenu possible d'ajouter des indications concernant les images et les vidéos contenues dans une page à l'intérieur du Sitemap "classique".

- Puis d'autres formats de Sitemaps dédiés sont arrivés pour les vidéos, les mobiles, Google News, etc.

Bref, le format des fichiers Sitemaps évolue et connaît, année après année, des nouveautés dans sa structure et ses possibilités.

Mais, finalement, ces fichiers sont globalement linéaires, toutes les URL sont proposées au même niveau. Pourquoi n'y aurait-il pas une extension du format de Sitemap qui permettrait d'indiquer la place de la page dans l'arborescence du site ?

Exemple :

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.my-spices.com/harissa.html</loc>
<section>world</section>
<section>africa</section>
<section>marocco</section>
</url>
</urlset>

Bien sûr; les URL sont parfois déjà bien structurées à ce niveau-là (http://www.my-spices.com/world/africa/marocco/harissa.html), mais ce n'est pas non plus toujours le cas. Google peut également parfois se servir du TITLE ou du fil d'Ariane (surtout s'il utilise les "rich snippets" adéquats) mais, là encore, la méthode n'est pas fiable à 100%.

Ce ne serait pas plus compliqué de lui indiquer une hiérarchie de l'arborescence du site directement dans les Sitemaps XML, et cela lui rendrait certainement service pour mettre "les bonnes pages aux bons endroits" et avoir, ainsi, une vision claire de l'arborescence d'un site. Et, en tout cas, ce serait, selon nous, beaucoup plus utile que des champs comme la priorité d'indexation ou la fréquence de mise à jour... Enfin, c'est une idée en l'air, on verra bien ce qu'il en est à l'avenir et si Google l'attrape au vol :-)... Et vous, qu'en pensez-vous ?

sitemap
Source de l'image :DR