METR-Evaluation: Claude Mythos Preview erreicht 16-Stunden autonomen Aufgabenhorizont

METRs Evaluation von Claude Mythos Preview (März 2026) schätzte einen 50-%-Zeithorizont von mindestens 16 Stunden — mehr als doppelt so weit wie das nächstbeste Modell — an der Obergrenze von METRs aktuellem Aufgaben-Set.

1 Min. Lesezeit|agenticonsult Intelligence

METR-Evaluation: Claude Mythos Preview erreicht 16-Stunden autonomen Aufgabenhorizont

METRs Evaluation einer frühen Claude-Mythos-Preview-Version (März 2026) schätzte einen 50-%-Zeithorizont von mindestens 16 Stunden (95-%-KI: 8,5–55 Stunden) — mehr als doppelt so weit wie das nächstbeste Modell. METR stellte fest, dass dies an der Obergrenze des bestehenden Aufgaben-Sets liegt, sodass die tatsächliche Obergrenze unbekannt bleibt. Unabhängige Bestätigung durch Palo Alto Networks' Pentesting-Ergebnisse bekräftigt den Anspruch auf reale Leistungsfähigkeit.

Bedeutung

Ein 16-stündiger autonomer Aufgabenhorizont bedeutet, dass Mythos komplexe mehrstufige Arbeiten über einen vollständigen Arbeitstag ohne menschliche Kontrollpunkte aufrechterhalten kann — ein Schwellenwert, der den Begriff „agentisch" im Produktionseinsatz grundlegend neu definiert. METRs externe Evaluation verleiht dem eine Glaubwürdigkeit, die interne Benchmarks nicht liefern können.

Primaerquelle

METR

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.