Johns-Hopkins-Studie: LLMs scheitern zu 60 % an mehrstufigen Agenten-Anweisungen
Eine Johns-Hopkins-Studie vom April 2026, die mehr als 850 agentenbasierte Aufgaben mit bis zu 12 konfliktierenden Privilegstufen umfasst, ergab, dass Frontier-LLMs mehrstufige Anweisungshierarchien in rund 60 % der Fälle nicht korrekt verarbeiten. Gemini 3.1 Pro erzielte die höchste Genauigkeit mit 42 % bei Coding-Aufgaben; GPT 5.4 lag unter 40 %; Claude Opus 4.6 erreichte 33 %. Grundursache: Die Modelle führen semantisches Pattern-Matching auf Privileg-Werte durch anstelle arithmetischer Vergleiche — was bis zu 17 % der Antworten umkehren kann, wenn numerische Privileg-Werte um ±1 verschoben werden, während die Reihenfolge erhalten bleibt.
Warum das relevant ist
Statische Vertrauenshierarchien versagen in produktiven Multi-Agenten-Deployments oberhalb von etwa sechs Stufen. Diese Studie quantifiziert das strukturelle Versagen — die Genauigkeit kollabiert monoton mit steigender Anzahl von Privilegstufen — und stellt direkt die Annahme in Frage, dass aktuelle LLMs widersprüchliche Anweisungen in agentenbasierten Pipelines zuverlässig arbitrieren können.