METR-Evaluation: Claude Mythos Preview erreicht 16-Stunden autonomen Aufgabenhorizont
METRs Evaluation einer frühen Claude-Mythos-Preview-Version (März 2026) schätzte einen 50-%-Zeithorizont von mindestens 16 Stunden (95-%-KI: 8,5–55 Stunden) — mehr als doppelt so weit wie das nächstbeste Modell. METR stellte fest, dass dies an der Obergrenze des bestehenden Aufgaben-Sets liegt, sodass die tatsächliche Obergrenze unbekannt bleibt. Unabhängige Bestätigung durch Palo Alto Networks' Pentesting-Ergebnisse bekräftigt den Anspruch auf reale Leistungsfähigkeit.
Bedeutung
Ein 16-stündiger autonomer Aufgabenhorizont bedeutet, dass Mythos komplexe mehrstufige Arbeiten über einen vollständigen Arbeitstag ohne menschliche Kontrollpunkte aufrechterhalten kann — ein Schwellenwert, der den Begriff „agentisch" im Produktionseinsatz grundlegend neu definiert. METRs externe Evaluation verleiht dem eine Glaubwürdigkeit, die interne Benchmarks nicht liefern können.