talkie-lm veröffentlicht: 13B-LLM ausschließlich auf Texten vor 1931 trainiert

Die Forscher Nick Levine, Alec Rad und David Duvenaud haben talkie-lm veröffentlicht – ein Sprachmodell mit 13 Milliarden Parametern, das ausschließlich auf Texten aus der Zeit vor 1931 trainiert wurde – als Forschungsinstrument zur Untersuchung der Generalisierungsfähigkeit von LLMs. Das Modell ist für den lokalen Betrieb ausgelegt und zeigt Verhalten, das seinem Trainings-Cutoff entspricht: Es verteidigt die Hypothese des Lichtäthers, bringt der speziellen Relativitätstheorie Misstrauen entgegen und reagiert ratlos auf die Bitte, eine Sushi-Lieferung in Philadelphia zu organisieren. Die zentrale Forschungsfrage lautet: Kann ein Modell, das vor der Existenz von Computern trainiert wurde, dennoch programmieren lernen?

Warum das wichtig ist

talkie-lm ist ein seltener Direktversuch zur Separierbarkeit von LLM-Reasoning und Weltwissen – er untersucht, ob die Fähigkeit zur Generalisierung aus Sprachmustern, aus Wissensinhalten oder aus deren Wechselwirkung entsteht. Das Modell eröffnet Forschungspfade von grundlegender Bedeutung für das Verständnis des In-Context-Lernens – unabhängig von der faktischen Aktualität der Trainingsdaten.