Thinking Machines Lab stellt Echtzeit-Interaktionsmodelle vor

Mira Muratis Thinking Machines Lab hat seine erste Research-Preview veröffentlicht und damit „Interaction Models" eingeführt — KI-Systeme, die von Grund auf für kontinuierliche Echtzeit-Multimodal-Verarbeitung konzipiert sind, anstatt Streaming nachträglich auf einen turn-basierten LLM-Stack aufzupfropfen. Das zentrale Architekturargument: Echte Echtzeit-Ko-Präsenz über Audio, Video und Text hinweg erfordert eine neue Modellklasse, keine inkrementelle Inferenzoptimierung. Eine begrenzte Preview wird innerhalb weniger Monate erwartet.

Was die Quellen tatsächlich berichten

Das Leitmodell der Vorstellung ist TML-Interaction-Small, ein 276-Milliarden-Parameter-Mixture-of-Experts-Modell mit 12 Milliarden aktiven Parametern zur Inferenzzeit. Anstatt auf vollständige User-Turns zu warten, verarbeitet es alle Ein- und Ausgaben als kontinuierliche 200-ms-Mikroturn-Streams — Audio, Video und Text gleichzeitig. Encoder-freies Early Fusion und batch-invariante Kernel bilden die Grundlage des Streaming-Training-Regimes; das NLP Newsletter beschreibt dies als die Befähigung des Modells, „gleichzeitig zu hören, zu sehen und zu sprechen".

Ein zweites, asynchrones Hintergrundmodell übernimmt komplexe kognitive Aufgaben, ohne den Interaktions-Loop zu blockieren. Diese bewusste zweistufige Aufteilung hält das Vordergrundmodell latenzbeschränkt, während aufwändige Deliberation an einen schwergewichtigen asynchronen Prozess ausgelagert wird — als Infrastrukturentscheidung verankert, nicht als Prompt-Routing-Heuristik. Das Muster erinnert an Dual-Process-Kognitionsmodelle und aktuelle Multi-Agenten-Orchestrierungsansätze, ist hier jedoch fest in der Architektur kodiert.

Auf FD-bench v1.5 — einem Benchmark, der gezielt Interrupt-Handling, visuelle Proaktivität und überlappende Spracheingaben testet — erzielt TML-Interaction-Small 77,8 Punkte gegenüber einem Wettbewerber-Bereich von 39,0 bis 54,3. Der unabhängige YouTube-Wochenrückblick von AI Search bestätigt die Zwei-Modell-Architektur und hebt Fähigkeiten hervor, die ausschließlich nicht-turn-basierten Designs vorbehalten sind: Unterstützung überlappender Spracheingaben, Wahrnehmung visueller Hinweisreize und zeitkritisches Prompting mitten in laufenden Aufgaben.

Strategische Einordnung

Die Zwei-Modell-Aufteilung — dauerhaft aktives leichtgewichtiges Interaktionsmodell plus asynchroner Tiefendenker — ist eine Referenzarchitektur, die für Anwendungen mit dauerhafter Ko-Präsenz aufmerksam verfolgt werden sollte: Sprachagenten, Live-Tutoren, kollaborative Whiteboards. Der FD-bench-Wert von 77,8 steht noch aus unabhängiger Replikation; das Strukturargument gegen die nachträgliche Anpassung turn-basierter LLMs für Echtzeit-Interaktion ist jedoch stichhaltig.

Thinking Machines Lab stellt Echtzeit-Interaktionsmodelle vor