Pourquoi ne peut-on pas télécharger la liste des URL d'un site indexées par Google ?

Google ne donne pas accès à une option de téléchargement exhaustif des URL indexées pour un site web donné par le moteur de recherche et ses robots. Pourtant, cette donnée serait si importante et utile, avant tout pour le moteur lui-même, d'ailleurs. Alors, pourquoi ne pouvons-nous pas obtenir ces informations ?...

Tous les webmasters s'intéressant un tant soit peu au SEO (et d'autres certainement) connaissent la syntaxe d'interrogation "site:" sur Google (exemple : [site:www.abondance.Com]). Elle permet d'obtenir approximativement le nombre d'URL d'un site donné qui sont indexées par Google. Dans le temps, Google proposait les 1 000 premiers résultats. Aujourd'hui, il s'arrête le plus souvent à 500 ou 600, parfois moins. Impossible donc, dès que votre site commence à grossir, d'obtenir par ce biais une liste exhaustive des URL indexées.

Il existe bien un autre moyen via la Search Console avec l'option "Trafic de Recherche > Etat de l'Indexation". Ce graphique (voir illustration ci-dessous) donne des indications globales, souvent plus précises que par la syntaxe "site:", sur ce nombre total de pages indexées, avec une notion d'historique sur les 12 derniers mois. Cette fonction est souvent très utile pour voir si un incident d'indexation n'a pas eu lieu à un moment donné, ou lors d'une migration avec changement d'URL, etc. Mais, là encore, si les données brutes du graphique sont téléchargeables, aucune option ne permet d'obtenir la liste des URL indexées de façon exhaustive.

Alors, oui, on peut obtenir un résultat plus ou moins bon avec plusieurs requêtes de type "site:" sur plusieurs zones du site (sur des répertoires notamment), mais c'est fastidieux et cela reste surtout du bidouillage peu fiable et ne s'adapte pas à des gros sites de plusieurs milliers de pages. Et surtout, rien ne dit que le résultat sera exhaustif (puisque la requête "site:" ne l'est pas, notamment lorsqu'il y a des redirections 301 qui ont été mises en place)...

Une si précieuse liste d'URL indexées...

Pourtant, cette information serait sacrément utile pour les webmasters qui pourraient ainsi mieux gérer leur site web et la façon dont Google le "digère". Voici quelques exemples (liste loin d'être exhaustive) :
- Détection et nettoyage (désindexation) d'URL de pages proposant des contenus de faible qualité (critère Panda).
- Détection facilitée de duplicate content intrasite.
- Visualisation de différences entre les pages indexées par Google et celles réellement dans l'arborescence (liste que l'on peut récupérer avec des outils comme Screaming Frog, OnCrawl ou Botify entre autres).
- Vérification de l'indexation des URL soumises via un Sitemap XML.
- Détection et suppression de pages anciennes et obsolètes, toujours indexées par le moteur.
- Suivi d'une migration avec changement d'URL.
- Etc.

Encore une fois, cette liste est loin d'être exhaustive. Le plus étonnant est que toutes ces actions aideraient grandement Google à nettoyer son index en ne lui donnant à crawler que des URL correspondant à des contenus de qualité. N'est-ce pas là le but ultime de filtres algorithmiques comme Panda, Phantom ou autres Quality Updates ? Alors, pourquoi le moteur ne propose-t-il de télécharger ces données ?

Quelques raisons (plus ou moins valables)...

On peut imaginer plusieurs raisons qui font que Google ne donne pas accès à ces informations :
- La taille du fichier à télécharger : il est clair que pour des sites comme Amazon.com (1 milliard de pages indexées) ou, plus près de nous, Cdiscount.com (17 millions), cela peut poser des problèmes de dimensionnement. Mais enfin, ce sont également là des cas extrêmes. On pourrait imaginer une limite (par exemple 10 000 URL représentatives) et, pourquoi pas, une option payante pour en obtenir plus si nécessaire ? Ceci dit, une première limite à 10 000 URL résoudrait déjà de nombreux problèmes pour des sites en-dessous de cette taille (et ils sont légion).
- La possibilité de spam. Souvent, Google ne donne pas accès à une information par peur que cela génère du spam contre son moteur ou que cette donnée ne soit détournée pour des raisons de malveillance. Mais en quoi le nombre d'URL indexées par un site et leurs intitulés, disponibles uniquement pour le webmaster du site qui plus est, peuvent-ils être utilisés pour spammer Google ? Il faut avouer qu'on cale à ce niveau...
- Une volonté de ne pas aider (trop) les webmasters. Pourquoi pas, mais dans ce cas, Google se prive d'une option qui nettoierait son index sans rien faire de son côté (manoeuvre dont il est coutumier). Un peu étonnant, non ?

Et vous, quel est votre avis à ce sujet ? Cette donnée vous serait-elle utile ? Pour quoi en faire ? pouvez-vous nous donner quelques exemples ? Et pourquoi, selon vous, Google n'y donne pas accès ? Vous avez la parole dans les commentaires !

search-console-etat-indexation
L'option Trafic de Recherche > Etat de l'Indexation de la Search Console...
Source de l'image : Google