Des millions de pages pour entraîner l’IA : les bibliothèques d’Harvard s’allient à OpenAI et Microsoft

Des millions de pages pour entraîner l’IA : les bibliothèques d’Harvard s’allient à OpenAI et Microsoft

Un partenariat inédit donne une seconde vie numérique aux archives historiques, avec une ambition claire : faire progresser l’intelligence artificielle en s’appuyant sur la richesse du patrimoine écrit.

L’IA à l’école des anciens manuscrits

Aux antipodes des forums en ligne et des bases de données génériques, un trésor intellectuel sommeillait dans les bibliothèques. Depuis le printemps 2025, Harvard, OpenAI et Microsoft s’emploient à l’exhumer. Objectif : entraîner des modèles d’intelligence artificielle à partir d’un corpus inégalé de 394 millions de pages, issues des collections universitaires les plus prestigieuses, parfois vieilles de plus de six siècles.

Derrière ce projet baptisé Institutional Books 1.0, se joue un changement de paradigme. Les modèles d’IA ne seront plus nourris uniquement par les flux numériques du présent, mais aussi par la pensée, le langage et les savoirs d’un passé soigneusement archivé. Une rupture technologique autant que culturelle.

Un corpus à forte valeur ajoutée

L’initiative s’appuie sur un constat simple : les bases utilisées jusque-là pour entraîner les IA manquent de fiabilité et d’enracinement historique. Greg Leppert, en charge de l’Institutional Data Initiative à Harvard, déplore le recours à des contenus mal sourcés. À l’inverse, les archives universitaires offrent des sources authentiques, contextualisées et documentées, parfois écrites dans des langues rares ou oubliées.

Enjeux techniques, risques éthiques

Le projet n’en reste pas moins complexe. Avec plus de 242 milliards de tokens déjà extraits, le traitement automatique de ces textes pose d’importants défis linguistiques et informatiques. La rareté de certains ouvrages, leur syntaxe datée, leur contenu parfois obsolète ou biaisé nécessitent des garde-fous.

Kristi Mukk, impliquée dans le programme, prévient : tout contenu patrimonial, aussi précieux soit-il, peut véhiculer les stéréotypes de son temps. Pour y faire face, l’équipe met en place des outils d’analyse et des avertissements clairs à destination des chercheurs et développeurs qui utiliseront ces données.

Une mobilisation au-delà des campus

Porté initialement par Harvard, le projet gagne désormais d’autres institutions. Grâce à un don de 50 millions de dollars, la bibliothèque Bodleian d’Oxford numérise ses propres archives, avec le même esprit d’ouverture. À Boston, la bibliothèque publique défend un accès libre à tous les documents collectés, soutenant l’idée que ces trésors doivent servir l’intérêt général.

Cette philosophie irrigue aussi les plateformes collaboratives comme Hugging Face, où les modèles et jeux de données issus de ce corpus patrimonial commencent à circuler librement.

Une IA ancrée dans l’histoire pour mieux penser demain

À terme, ce retour aux sources pourrait bien transformer la nature même de l’intelligence artificielle. Fini l’IA purement statistique : place à une IA cultivée, capable de croiser les époques, d’identifier les racines d’un raisonnement ou de détecter les biais historiques.

Les partenaires en sont convaincus : en redonnant du poids aux institutions publiques dans la construction des modèles, on renforce la transparence, l’exigence scientifique et la protection des communs. Une manière aussi de réaffirmer un principe fondamental à l’ère du numérique : l’innovation ne vaut que si elle s’appuie sur un savoir rigoureux, accessible et partagé.