Plaidoyer pour une nouvelle directive Noindex: dans le robots.txt

Google teste depuis bien longtemps la directive 'Noindex:' dans le fichier robots.txt, mais sans support réel et sans garantir sa pérennité. Pourtant, il serait certainement très intéressant et très utile pour tout le monde de la proposer de façon officielle, mais avec un léger changement dans son fonctionnement. Explications...

Sur un site web, quand on s'intéresse au SEO, on peut classer les pages et documents en deux familles distinctes :
• Ceux qu'il est intéressant pour l'internaute de trouver dans les résultats de recherche des moteurs et sur lesquels Google doit donc se focaliser lorsque ses robots explorent l'arborescence.
• Ceux qui ont moins d'intérêt à être identifiés dans les SERP. Quelques exemples en vrac : les pages de résultats des moteurs internes, les fichiers XML (ou PDF parfois), les pages proposant très peu de texte, le contenu de pop-ups, le panier sur un site e-commerce, etc. Liste non exhaustive... Tous ces documents, quel que soit leur format, peuvent (doivent ?) être désindexés. Soit parce que cela rentre dans les recommandations de Google, soit tout simplement parce que les robots vont perdre du temps à crawler des pages inutiles et qu'il vaut mieux les aiguiller sur celles qui présentent un réel intérêt, budget crawl oblige.

Comment désindexer des contenus ?

Nous nous focaliserons ici sur la seconde famille, celles des pages à désindexer. Pour ce faire, on dispose de plusieurs possibilités :
• Le fichier robots.txt, à la racine du site.
• La balise meta robots "noindex" dans le code HTML des pages.
• La directive X-robots-tag du protocole HTTP.

Chacune de ces possibilités a son propre fonctionnement :
• Le fichier robots.txt va empêcher le crawl d'une page mais pas l'indexation de son URL, qui pourra apparaître dans les résultats de recherche du moteur avec le message "La description de ce résultat n'est pas disponible en raison du fichier robots.txt de ce site".
• La balise meta robots "noindex" va empêcher l'indexation de la page. En revanche, son contenu est crawlé, ce qui peut être gênant en termes de budget crawl. Idem pour la directive X-Robots-tag.

Une directive "NiNi" : Ni crawl, Ni indexation

En fait, il existe un tas de cas pour lesquels il serait intéressant d'indiquer aux robots des moteurs qu'il ne doit NI crawler NI indexer le contenu ou l'URL de la page. Comme ils ne doivent pas crawler, on peut éliminer l'option de la balise meta robots (puisque, pour la prendre en compte, il est bien obligé de lire le code de la page). Bref, il serait intéressant de disposer d'une syntaxe dans le fichier robots.txt qui permette de faire un Disallow: mais sans que l'URL ne soit indexée.

Or, on se souvient que Google teste depuis 10 ans la directive Noindex:, qui n'est pas supportée officiellement et donc pas recommandée car pas standard et ne disposant d'aucune pérennité. Certes. Actuellement, cette directive a le même impact que la balise meta robots "noindex" : la page est crawlée, mais non indexée. Son intérêt est donc faible (même si elle permet plus facilement de désindexer d'importants lots de pages grâce notamment à l'utilisation de wildcards).

Alors, pourquoi Google, en accord avec les autres moteurs majeurs, comme cela avait déjà été le cas autrefois, ne modifierait-il pas la vocation de cette directive Noindex: en lui donnant - officiellement cette fois - le fonctionnement qui manque aujourd'hui dans l'arsenal de désindexation disponible : la page en question ne sera alors pas crawlée (comme pour le Disallow:) et pas indexée (comme pour la meta robots), incluant bien sûr un "nofollow" automatique (puisque la page n'est pas lue). Cela arrangerait en fait tout le monde :
• Le moteur puisqu'il gagne énormément de temps à ne pas crawler des pages sans intérêt et qu'il n'a pas à stocker des URL inutiles.
• L'éditeur du site qui, du coup, focalise la venue du robot sur les zones intéressantes du site, optimise son budget crawl et ne voit pas des URL non désirées sortir quand même dans les SERP.
Dans les deux cas, le budget crawl serait bien mieux utilisé, rentabilisé et chaque partie aurait à y gagner.

Dis, monsieur Google, tu y penseras un jour ?

Une directive de ce type serait réellement très intéressante et résoudrait de très nombreux problèmes de désindexation, insolubles à l'heure actuelle faute de possibilités pour affiner la politique de budget crawl d'un site. Bien sûr, cela ne concernerait que les (très) gros sites, mais ils sont nombreux sur le Web. Et cela permettrait de clarifier certaines situations et de faire quelques "ménages", souvent salvateurs, pour séparer le bon grain de l'ivraie.

Alors, peut-être que monsieur Google (ou tout du moins son équipe qui gère le crawl) pourrait-il y penser un de ces jours ? Après tout, c'est pour son bien aussi... Et il est difficile d'imaginer que ce type de fonctionnalité pourrait servir à spammer le moteur d'une quelconque façon... Bien sûr, on a peu de chances d'être entendu avec cette proposition. Mais sait-on jamais ? 😉

Et vous, qu'en pensez-vous ? Une telle directive serait-elle la bienvenue et faciliterait-elle vos actions ? A vous la parole...

Robot spider
Robot, spider, crawler... Source de l'image : DR