Johns-Hopkins-Studie: LLMs scheitern zu 60 % an mehrstufigen Agenten-Anweisungen

Eine Johns-Hopkins-Studie vom April 2026 mit über 850 agentenbasierten Aufgaben zeigt, dass Frontier-LLMs bei mehrstufigen Anweisungshierarchien mit bis zu 12 konfliktierenden Privilegstufen in ~60 % der Fälle scheitern.

1 Min. Lesezeit|agenticonsult Intelligence

Johns-Hopkins-Studie: LLMs scheitern zu 60 % an mehrstufigen Agenten-Anweisungen

Eine Johns-Hopkins-Studie vom April 2026, die mehr als 850 agentenbasierte Aufgaben mit bis zu 12 konfliktierenden Privilegstufen umfasst, ergab, dass Frontier-LLMs mehrstufige Anweisungshierarchien in rund 60 % der Fälle nicht korrekt verarbeiten. Gemini 3.1 Pro erzielte die höchste Genauigkeit mit 42 % bei Coding-Aufgaben; GPT 5.4 lag unter 40 %; Claude Opus 4.6 erreichte 33 %. Grundursache: Die Modelle führen semantisches Pattern-Matching auf Privileg-Werte durch anstelle arithmetischer Vergleiche — was bis zu 17 % der Antworten umkehren kann, wenn numerische Privileg-Werte um ±1 verschoben werden, während die Reihenfolge erhalten bleibt.

Warum das relevant ist

Statische Vertrauenshierarchien versagen in produktiven Multi-Agenten-Deployments oberhalb von etwa sechs Stufen. Diese Studie quantifiziert das strukturelle Versagen — die Genauigkeit kollabiert monoton mit steigender Anzahl von Privilegstufen — und stellt direkt die Annahme in Frage, dass aktuelle LLMs widersprüchliche Anweisungen in agentenbasierten Pipelines zuverlässig arbitrieren können.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

Johns-Hopkins-Studie: LLMs scheitern zu 60 % an mehrstufigen Agenten-Anweisungen

Johns-Hopkins-Studie: LLMs scheitern zu 60 % an mehrstufigen Agenten-Anweisungen

Warum das relevant ist

Live News Feed