physics-intern Multi-Agenten-Framework verdoppelt Gemini 3.1 Pro-Score auf CritPt
Das physics-intern-Framework hebt Gemini 3.1 Pro auf CritPt von 17,7 % auf 31,4 % – einem Benchmark, der als einer der schwierigsten für LLMs auf dem Gebiet der theoretischen Physik gilt. Das Framework zerlegt komplexe Probleme und leitet sie an spezialisierte Agententeams weiter, die sich selbst korrigieren, Gleichungen ableiten, Zwischenergebnisse berechnen und Lösungsansätze neu bewerten. Das Ergebnis ist ein neuer State-of-the-Art auf CritPt – erreicht nicht durch ein besseres Basismodell, sondern durch eine bessere Multi-Agenten-Orchestrierungsschicht um dasselbe Modell.
Warum das relevant ist
Den Score eines Frontier-Modells auf einem anspruchsvollen Benchmark durch Orchestrierung allein nahezu zu verdoppeln zeigt, dass Verbesserungen in der Multi-Agenten-Architektur inzwischen Fähigkeitszuwächse erzielen, die mit Modell-Upgrades vergleichbar sind – ohne die Rechenkosten für das Training eines größeren Modells.