Le CNRS propose depuis quelques jours un nouveau moteur de recherche linguistique qui travaille sur 50 000 pages issues d'environ 50 sites Web institutionnels du CNRS. La technologie employée est celle de la société Pertimm.

Le moteur offre notamment une fonctionnalité originale avec la possibilité d'accéder (lettre par lettre, de façon instantanée) à un mot ou à une expression complexe (calculée automatiquement sur la base des mots clés issus de l'indexation des documents crawlés), bref à "tout ce qui commence par...".

L'outil propose en option également une possibilité de reformulation de la requête avec des expressions issues du contexte.

Dans un premier temps, les informations sont fournies par site puis par page à l'intérieur d'un site. Des informations en cache sont également possibles, sachant que l'indexation des documents s'effectue toutes les une à deux semaines.

Selon Boris Borzic, responsable de système d'information CNRS/DIST, qui a travaillé au cahier des charges de ce nouveau moteur : "nous travaillons sur des index de 500 000 puis 1 million de pages avec cette même technologie".

Bref, un nouvel outil innovant, très intéressant et... A tester sans attendre !

http://www.cnrs.fr/rechercher/
http://www.pertimm.fr/