Abstract Chain-of-Thought: Paper beansprucht 11,6× weniger Reasoning-Token
Ein neues Paper stellt Abstract Chain-of-Thought (Abstract CoT) vor – einen zweistufigen Trainingsansatz für effizientes Reasoning. In der ersten Phase lernen Modelle, reservierte abstrakte Token auf die Bedeutungen realer Reasoning-Ketten abzubilden. In der zweiten Phase schärft Reinforcement Learning diese abstrakten Token zu einer modell-erfundenen privaten Kurzschrift. Endantworten verbleiben in natürlicher Sprache; nur das Zwischenreasoning erfolgt im komprimierten Tokenraum. Die Methode soll verbales Chain-of-Thought bei Mathe-Benchmarks, Multi-Hop-QA und Instruction-Following erreichen oder übertreffen – mit 11,6× weniger Reasoning-Token – und beansprucht familienübergreifende Generalisierung.
Warum das relevant ist
Sollte die 11,6-fache Token-Reduktion über Modellfamilien und Aufgabentypen hinweg reproduzierbar sein, entspricht dies einer Größenordnungsreduktion der Kosten für reasoning-intensive agentische Workflows – eine Qualitätsverbesserung, die bislang wirtschaftlich unrentable Reasoning-Ketten kommerziell tragfähig machen würde.