Abstract Chain-of-Thought-Paper beansprucht 11,6× weniger Reasoning-Token

Ein neues Paper stellt Abstract Chain-of-Thought (Abstract CoT) vor – eine zweistufige Trainingsmethode für effizientes Reasoning. In der ersten Phase lernen Modelle, reservierte abstrakte Token mit echten Reasoning-Ketten zu assoziieren; in der zweiten Phase schärft Reinforcement Learning diese Token zu einer modell-erfundenen privaten Kurzschrift. Das Reasoning erfolgt in dieser komprimierten Darstellung, während die Endantworten in natürlicher Sprache verbleiben. Die Methode soll verbales Chain-of-Thought bei Mathe-Benchmarks, Multi-Hop-QA und Instruction-Following erreichen oder übertreffen – mit 11,6× weniger Reasoning-Token – und beansprucht familienübergreifende Generalisierung.

Abstract Chain-of-Thought: Paper beansprucht 11,6× weniger Reasoning-Token

Ein neues Paper stellt Abstract Chain-of-Thought (Abstract CoT) vor – einen zweistufigen Trainingsansatz für effizientes Reasoning. In der ersten Phase lernen Modelle, reservierte abstrakte Token auf die Bedeutungen realer Reasoning-Ketten abzubilden. In der zweiten Phase schärft Reinforcement Learning diese abstrakten Token zu einer modell-erfundenen privaten Kurzschrift. Endantworten verbleiben in natürlicher Sprache; nur das Zwischenreasoning erfolgt im komprimierten Tokenraum. Die Methode soll verbales Chain-of-Thought bei Mathe-Benchmarks, Multi-Hop-QA und Instruction-Following erreichen oder übertreffen – mit 11,6× weniger Reasoning-Token – und beansprucht familienübergreifende Generalisierung.

Warum das relevant ist

Sollte die 11,6-fache Token-Reduktion über Modellfamilien und Aufgabentypen hinweg reproduzierbar sein, entspricht dies einer Größenordnungsreduktion der Kosten für reasoning-intensive agentische Workflows – eine Qualitätsverbesserung, die bislang wirtschaftlich unrentable Reasoning-Ketten kommerziell tragfähig machen würde.

Abstract Chain-of-Thought-Paper beansprucht 11,6× weniger Reasoning-Token

Abstract Chain-of-Thought: Paper beansprucht 11,6× weniger Reasoning-Token

Warum das relevant ist

Live News Feed