Harness Engineering schlägt Modell-Upgrades: AHE-Framework und 20 % Terminal-Bench-Gewinn

Zwei unabhängige Datenpunkte belegen Harness Engineering als primären Performance-Hebel. Das Agentic Harness Engineering (AHE) Framework — das Paper der Woche laut NLP Newsletter — hebt Pass@1 auf Terminal-Bench 2 von 69,7 % auf 77,0 %, übertrifft Codex-CLI um 5,1 Punkte und benötigt dabei 12 % weniger Token. Unabhängig davon meldet LangChain 13–20 % Terminal-Bench-Gewinn durch ausschließliche Anpassung von Prompt und Middleware — ohne jegliches Modell-Update.

Einordnung

Harness-Qualität — nicht Modell-Capability — ist der dominante Wettbewerbsfaktor für produktive Agentensysteme. Wer die Prompting-Empfehlungen der Frontier Labs befolgt und in Middleware-Optimierung investiert, erzielt messbare Leistungsgewinne, ohne auf das nächste Modell-Release warten zu müssen.