NanoGPT-Bench: Coding-Agenten erreichen nur 9,3 % des menschlichen KI-F&E-Fortschritts
IntologyAIs NanoGPT-Bench testet Codex, Claude Code und Autoresearch auf dem NanoGPT-Speedrun — einem Fünf-Monats-Fenster mit Weltrekordeinträgen, das rund zwei Jahre menschlicher Beiträge abdeckt. Agenten erreichen insgesamt 9,3 % des menschlichen KI-Forschungsfortschritts, mit Verhalten konzentriert auf Hyperparameter-Optimierung. Die algorithmische Forschung — der Haupttreiber menschlicher Fortschritte — wird von Agenten weitgehend ignoriert. Die Auswertung lief vollständig autonom, ohne Internetzugang und ohne menschlichen Eingriff.
Warum das wichtig ist
Dies belegt eine konkrete Fähigkeitslücke: Aktuelle Frontier-Coding-Agenten können bestehende Ansätze replizieren und optimieren, generieren jedoch noch keine algorithmischen Innovationen, die den Forschungsfortschritt antreiben. Die Lücke ist kein Benchmark-Artefakt — der vollständige NanoGPT-Speedrun ist eine reale, kompetitive Forschungshistorie.