DUET-Paper: Dual-LM-Inferenz reduziert Reasoning-Token um 70 % bei nahezu gleicher Genauigkeit

Ein neues Paper von Boston University, MIT und Biohub schlägt DUET vor — ein Dual-LM-Inferenzparadigma, das Reasoning an ein großes Modell und Antwortgenerierung an ein kleines Modell über einen bandbreitenbegrenzten Kanal delegiert — mit rund 70 % Output-Token-Reduktion bei gleicher oder besserer Genauigkeit gegenüber Einzelmodell-Baselines.

1 Min. Lesezeit|agenticonsult Intelligence

DUET-Paper: Dual-LM-Inferenz reduziert Reasoning-Token um 70 % bei nahezu gleicher Genauigkeit

Forscher der Boston University, des MIT und des Biohub haben DUET veröffentlicht (1. Mai 2026) — eine Dual-Mode-Inferenzarchitektur, die Reasoning (vom großen, leistungsstarken Modell übernommen) von der Antwortgenerierung (vom kleinen, leichtgewichtigen Modell übernommen) über einen gemeinsam trainierten, bandbreitenbegrenzten Kommunikationskanal trennt. Benchmarks auf MATH-500, AMC 23/24 und GPQA Diamond zeigen eine Reduktion der Ausgabe-Token um rund 70 % bei gleicher oder besserer Genauigkeit im Vergleich zu Einzelmodell-Baselines und Prompt-basiertem GRPO. Getestet auf Qwen 4B + 0,6B unter einem 4×H100-Compute-Budget.

Warum das relevant ist

DUET deutet darauf hin, dass die Trennung von Reasoning-Compute und Generierungs-Compute — anstatt ein einzelnes Modell zu skalieren — ein tragfähiger Weg zu Frontier-Level-Genauigkeit bei einem Bruchteil der Inferenzkosten ist. Sollte sich der Ansatz über den eingeschränkten experimentellen Rahmen hinaus bewähren, könnte er die Wirtschaftlichkeit produktiver Agentenketten grundlegend verändern.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

DUET-Paper: Dual-LM-Inferenz reduziert Reasoning-Token um 70 % bei nahezu gleicher Genauigkeit

DUET-Paper: Dual-LM-Inferenz reduziert Reasoning-Token um 70 % bei nahezu gleicher Genauigkeit

Warum das relevant ist

Live News Feed