GPT-5.5 erreicht nahezu Parität mit Claude Mythos Preview: 71,4 % vs. 68,6 %

Sam Altman hat Benchmark-Daten veröffentlicht, denen zufolge GPT-5.5 bei agentischen Aufgaben eine durchschnittliche Erfolgsrate von 71,4 % (±8,0 %) erzielt, gegenüber Claude Mythos Preview mit 68,6 % (±8,7 %) – ein statistisch nahezu gleichwertiges Ergebnis innerhalb der Fehlermargen. Eine separate Demonstration zeigte GPT-5.5 beim Abschluss einer Aufgabe, die auf 12 Stunden menschlicher Expertenarbeit geschätzt wurde, in unter 11 Minuten zu Gesamtrechenkosten von 1,73 Dollar – ein Beleg für Leistungsfähigkeit und wirtschaftliche Effizienz auf diesem Frontier-Niveau.

Warum es wichtig ist

Nahezu gleichwertige Benchmark-Ergebnisse auf Frontier-Niveau bedeuten, dass die Differenzierung sich zunehmend von rohen Benchmark-Werten auf Ökosystem, Preisniveau, Sicherheitspostur und Integrationstiefe verlagert – Anthropics zeitgleich veröffentlichte Sycophancy-Studie ist offenbar eine direkte Reaktion auf dieses Benchmark-Narrativ.