Google a lancé dernièrement un applicatif nommé News Archive Search, permettant l'exploration historique de l'actualité sur les 200 dernières années. Un applicatif extrêmement intéressant pour qui recherche une information dans le passé historique.

Dans le même sens, je me suis toujours posé la question sur le sort donné par Google aux pages web qu'il indexe jour après jour. Lorsqu'un document disparaît du Web, le moteur l'enlève, de façon logique, de l'index disponible aux internautes, mais qu'en fait-il ? En garde-t-il une trace ? Idem pour l'ancienne version d'une page web... Lorsque les spiders de Google identifient la mise à jour d'un document, qu'advient-il de l'ancienne version ? Est-elle écrasée ou sauvegardée "quelque part" en attendant ?

Imaginez que, depuis 1999, date de création de Google, le moteur ait sauvegardé TOUTES les pages, toutes les différentes versions des documents identifiés sur le Web, un peu comme une Wayback Machine puissance 10... Quelle extraordinaire outil cela serait... Il permettrait de plonger dans les entrailles du Web sur sept ans et d'identifier des monceaux de pages parfois oubliées... Bien sûr, on peut imaginer que, juridiquement parlant, cela pose un certain nombre de questions... Bien sûr,on peut imaginer que la masse d'informations stockée est monstrueuse (il serait intéressant d'ailleurs de faire un sondage à ce sujet : quelle est, selon vous , la taille du web en termes de milliards de pages différentes mises en ligne et de tera-octets, depuis sept ans ?) mais on peut toujours rêver non ?

Alors, Google garde-t-il tout ou jette-t-il les informations au fur et à mesure ? Personnellement, j'ai l'intime conviction que la première version est la bonne et qu'il pourrait un jour ou l'autre proposer un service décoiffant nous permettant d'explorer le cortex mémorial de notre planète web depuis de nombreuses années...