DUET-Paper: Dual-LM-Inferenz reduziert Reasoning-Token um 70 % bei nahezu gleicher Genauigkeit

Forscher der Boston University, des MIT und des Biohub haben DUET veröffentlicht (1. Mai 2026) — eine Dual-Mode-Inferenzarchitektur, die Reasoning (vom großen, leistungsstarken Modell übernommen) von der Antwortgenerierung (vom kleinen, leichtgewichtigen Modell übernommen) über einen gemeinsam trainierten, bandbreitenbegrenzten Kommunikationskanal trennt. Benchmarks auf MATH-500, AMC 23/24 und GPQA Diamond zeigen eine Reduktion der Ausgabe-Token um rund 70 % bei gleicher oder besserer Genauigkeit im Vergleich zu Einzelmodell-Baselines und Prompt-basiertem GRPO. Getestet auf Qwen 4B + 0,6B unter einem 4×H100-Compute-Budget.

Warum das relevant ist

DUET deutet darauf hin, dass die Trennung von Reasoning-Compute und Generierungs-Compute — anstatt ein einzelnes Modell zu skalieren — ein tragfähiger Weg zu Frontier-Level-Genauigkeit bei einem Bruchteil der Inferenzkosten ist. Sollte sich der Ansatz über den eingeschränkten experimentellen Rahmen hinaus bewähren, könnte er die Wirtschaftlichkeit produktiver Agentenketten grundlegend verändern.