Google propose aujourd'hui une étude portant sur un corpus linguistique de 500 milliards de mots en plusieurs langues. Certains résultats et données sont disponibles sur un site dédié...

Google va sortir dans la revue Science, en collaboration avec des chercheurs de Harvard, du MIT, de l'Encyclopaedia Britannica et de l'éditeur Houghton Mifflin Harcourt, une étude sur un corpus linguistique de 500 milliards de mots, extraits de son outil de numérisation de livres Google Books.

Cet énorme chiffre représente 4% des livres publiés sur Terre en deux siècles... Un site web est d'ores et déjà disponible, proposant liste et statistiques sur les mots et "n-grammes" (suites de n mots consécutifs, n étant inférieur ou égal à 5), pour les chercheurs en linguistique de la planète. Notons que la langue française est prise en compte dans cette étude...

Google ngram viewer
Source de l'image : Google

Plus d'infos :
- http://ngrams.googlelabs.com/

Source(s) :
- Find out what’s in a word, or five, with the Google Books Ngram Viewer (Google)
- Google: Le plus grand corpus linguistique de tous les temps (Technologies du Langage)

Articles connexes sur ce site :
- Google va proposer son index N-Gram (9 août 2006)