Harness-Engineering schlägt Multi-Agent: Der empirische Nachweis

Drei unabhängige Forschungsströme konvergierten diese Woche auf ein einziges Architekturverdikt: Multi-Agenten-Systeme sind nicht der selbstverständliche Upgrade-Pfad, für den sie häufig gehalten werden, und die Harness-Schicht — nicht die Agentenzahl — ist der Ort, an dem messbare Leistung entsteht. Die Belege sind quantifiziert, quellenübergreifend und direkt umsetzbar.

Was die Quellen tatsächlich sagen

AlphaSignals Sunday Deep Dive, verfasst von Ben Dickson, synthetisierte zwei zentrale Studien aus dem Jahr 2026. Ein Stanford-Team kontrollierte das sogenannte „Thinking Budget" — beide Architekturen erhielten identische Token-Kontingente — und stellte fest, dass Single-Agent-Konfigurationen Multi-Agenten-Varianten bei Multi-Hop-Reasoning durchgängig entsprechen oder übertreffen. Eine separate Studie von Google und MIT lieferte konkrete Zahlen: Unabhängige Agentenschwärme amplifizierten Ausgangsfehler um bis zu 17,2-fach. Bei werkzeugintensiven Setups mit 16 Tools lag die Koordinationseffizienz eines einzelnen Agenten bei 0,466; Multi-Agenten-Systeme fielen auf 0,074–0,234 — eine 2- bis 6-fache Effizienzstrafe. Die praktische Konsequenz beider Studien: Ein leistungsstarker Single-Agent-Ansatz ist der Standardfall; auf Multi-Agent sollte erst dann skaliert werden, wenn Aufgaben genuinen echten Parallelzerlegungsbedarf aufweisen oder die Einzelagenten-Genauigkeit unter 45% sinkt.

Das herausragende Papier des NLP Newsletters dieser Woche liefert das konstruktive Gegenstück. Agentic Harness Engineering (AHE) stellt ein Drei-Schichten-Framework vor — revertierbare Komponenten, kondensierte Erfahrung und falsifizierbare Entscheidungen —, das Harness-Evolution von einer Black-Box-Heuristik in einen auditierbaren Engineering-Prozess verwandelt. Zehn Iterationen dieses Frameworks steigerten Pass@1 auf Terminal-Bench 2 von 69,7% auf 77,0% und übertrafen damit das menschlich konzipierte Codex-CLI (71,9%) bei gleichzeitig 12% geringerem Token-Verbrauch. Cross-Modell-Transfer-Gewinne von +5,1 bis +10,1 Punkten bestätigen, dass die Verbesserungen strukturell und nicht auf ein einzelnes Modell zugeschnitten sind.

Harrison Chase von LangChain untermauerte dies mit Produktionsdaten: gpt-5.2-codex sprang auf Terminal-Bench 2 von 52,8% auf 66,5% — ausschließlich durch Harness-Ebenen-Änderungen: Prompt-Umschreibungen und Middleware-Hooks, kein Modell-Wechsel. Das Befolgen der Prompting-Richtlinien der Frontier-Labs erzielte eine 20-prozentige Genauigkeitsverbesserung für gpt-5.3-codex auf tau2-bench. Peter Werry von Unblocked schloss den Kreis auf AI Engineer mit einem Praxisbenchmark: Eine Context-Engine — die angewandte Harness-Schicht — reduzierte die Bearbeitungszeit um das 6-Fache und den Token-Verbrauch um 52% bei einer komplexen Implementierungsaufgabe, vollständig zurückzuführen auf Kontextqualität, nicht auf zusätzliche Agenten.

Strategische Einordnung

Wenn Harness-Ebenen-Änderungen 20% Genauigkeitsgewinn bei null zusätzlichen Modellkosten liefern, muss das ROI-Argument für Multi-Agenten-Komplexität grundlegend neu aufgestellt werden. Für jeden agentischen Aufbau gilt: Prüfen Sie Prompt-Struktur und Middleware-Hooks, bevor Sie die Agentenzahl erhöhen. Die empirische Literatur macht dies zur Architekturentscheidung mit dem höchsten Hebel in jedem agentischen Stack.

Harness-Engineering schlägt Multi-Agent: Der empirische Nachweis