DeepMind-KI-Mathematiker erzielt 48 % auf FrontierMath Tier 4
Google DeepMind hat einen KI-Co-Mathematiker vorgestellt, der 48 % Genauigkeit bei FrontierMath-Tier-4-Aufgaben erreicht — der höchste Wert, den ein KI-System auf diesem Benchmark je verzeichnet hat. Die Aufgaben umfassen Gruppentheorie, Hamiltonsche Systeme und algebraische Kombinatorik. Das Multi-Agenten-System arbeitet sowohl im autonomen Evaluierungsmodus als auch im kollaborativen Modus an der Seite menschlicher Forscher.
Bedeutung
FrontierMath Tier 4 besteht aus formal verifizierten, neuartigen Aufgaben, die nicht aus Trainingsdaten abgeleitet werden können. Das Überschreiten der 48-%-Marke signalisiert, dass KI in mathematisches Terrain vorstößt, das bisher Spezialforschern vorbehalten war — eine Fähigkeitsgrenze, die in Echtzeit und vor den meisten Zeitplanerwartungen überschritten wird.