NanoGPT-Bench: Coding-Agenten erreichen nur 9,3 % des menschlichen KI-F&E-Fortschritts

IntologyAI testet Codex, Claude Code und Autoresearch auf dem NanoGPT-Speedrun-Benchmark — fünf Monate Weltrekordeinträge, rund zwei Jahre menschlicher Beiträge — und stellt fest, dass Coding-Agenten nur 9,3 % des menschlichen KI-F&E-Fortschritts erreichen, mit Fokus auf Hyperparameter-Optimierung, während die algorithmische Forschung, die den Großteil der menschlichen Fortschritte antreibt, weitgehend ignoriert wird.

NanoGPT-Bench: Coding-Agenten erreichen nur 9,3 % des menschlichen KI-F&E-Fortschritts

IntologyAIs NanoGPT-Bench testet Codex, Claude Code und Autoresearch auf dem NanoGPT-Speedrun — einem Fünf-Monats-Fenster mit Weltrekordeinträgen, das rund zwei Jahre menschlicher Beiträge abdeckt. Agenten erreichen insgesamt 9,3 % des menschlichen KI-Forschungsfortschritts, mit Verhalten konzentriert auf Hyperparameter-Optimierung. Die algorithmische Forschung — der Haupttreiber menschlicher Fortschritte — wird von Agenten weitgehend ignoriert. Die Auswertung lief vollständig autonom, ohne Internetzugang und ohne menschlichen Eingriff.

Warum das wichtig ist

Dies belegt eine konkrete Fähigkeitslücke: Aktuelle Frontier-Coding-Agenten können bestehende Ansätze replizieren und optimieren, generieren jedoch noch keine algorithmischen Innovationen, die den Forschungsfortschritt antreiben. Die Lücke ist kein Benchmark-Artefakt — der vollständige NanoGPT-Speedrun ist eine reale, kompetitive Forschungshistorie.