MILKYWAY zeigt: Agent-Scaffolding kann Fine-Tuning übertreffen

Ein neues Paper der City University of Hong Kong, der Tsinghua University und der USTC schlägt MILKYWAY vor: ein temporales Vorhersagesystem, das das Basis-LLM (GPT-5.4) vollständig eingefroren lässt und das gesamte Lernen in ein bearbeitbares Text-Harness auslagert — eine strukturierte Skill-File, die von einem zweiten „Harness-Editor"-Agenten umgeschrieben wird, wenn neue Evidenz eintrifft, bevor ein offenes Ereignis sich auflöst.

Was die Quellen tatsächlich sagen

Die Architektur operiert über drei textmanipulierbare Komponenten: F (für die Vorhersage relevante Faktoren), E (ausschließlich aus Primärquellen gesammelte Evidenz) und T (Unsicherheitsanweisungen). Ein Harness-Editor-Agent schreibt diese Files um, wenn neue Daten eintreffen — ein Arbeitsbericht der Fed, eine Zentralbankerklärung — während die Gewichte des Basismodells durchgehend unverändert bleiben. Das System erzwingt eine Primärquellen-Regel: Fed-Pressemitteilungen, keine Nachrichtenkommentare.

Die Benchmark-Ergebnisse sind signifikant. MILKYWAY erzielt 61% auf den Future-X- und Future-World-Vorhersage-Benchmarks gegenüber GPT-5.4 mit Live-Websuche bei 44% — ein Vorsprung von 17 Prozentpunkten. Fünf Tage vor dem vorhergesagten Ereignis weitet sich der Abstand: 70% gegenüber 57%. Das Harness erzwingt zudem das gleichzeitige Aufrechterhalten mehrerer Hypothesen, anstatt verfrüht zu einer einzigen zuversichtlichen Antwort zu kollabieren — eine Technik, die die Autoren als Lösung für den dokumentierten LLM-Fehlermodus des „verfrühten Unsicherheitskollapses" beschreiben.

Die tiefste Einschränkung ist auch die aufschlussreichste: Löscht man das Harness, fällt das Modell bei dieser Aufgabe auf basale Inkompetenz zurück. Kein Lernen gelangt ins neuronale Netzwerk. Das Wissen lebt in einer Textdatei neben dem LLM. Ein weiterer Fehlermodus — Harness-Vergiftung — tritt auf, wenn eine früh im Zeitfenster kodierte falsche Lektion durch jedes nachfolgende Update propagiert wird und Monate braucht, um entdeckt und korrigiert zu werden.

Strategische Einordnung

MILKYWAY ist empirischer Beleg dafür, dass ausgelagerte, bearbeitbare Text-Harnesses Benchmark-Gewinne erzielen können, die derzeit Modell-Upgrades oder Fine-Tuning zugeschrieben werden. Das Skill-File-Muster konvergiert über MILKYWAY, Legoras Agenten-Skills-System und Claude Codes eigene Skills-Konvention hinweg — was darauf hindeutet, dass bearbeitbare Instruktionsdateien sich als kanalübergreifende Abstraktion festigen. Für Teams, die agentische Systeme aufbauen, ist dies ein Argument dafür, jetzt in Harness-Qualität zu investieren, anstatt auf das nächste Basismodell-Release zu warten.