AssemblyAI Universal-3 Pro Streaming: LLM als Decoder – ASR unter 300 ms Latenz

AssemblyAI hat Universal-3 Pro Streaming auf den Markt gebracht – ein Spracherkennungssystem mit einer grundlegend neuen Architektur: Anstatt ein LLM als nachgeschalteten Korrekturpass einzusetzen, übernimmt das LLM die Rolle des Decoders selbst und generiert Transkripte mit Grammatik, Kontextwissen und Weltwissen in einem einzigen Durchlauf. Das System erreicht eine P50-Latenz unter 300 ms, unterstützt mehrsprachiges Wechseln mitten im Satz für Englisch, Spanisch, Französisch, Deutsch, Italienisch und Portugiesisch und erlaubt die Injektion domänenspezifischer Vokabeln vor oder während eines Gesprächs. Primäre Zielvertikale sind die medizinische Ambient-Dokumentation sowie industrielle Lärmumgebungen. Der Einstieg ist kostenlos mit einem Guthaben von 50 USD, ohne Kartenerfordernis.

Warum das relevant ist

Die LLM-als-Decoder-Architektur löst den historischen Zielkonflikt zwischen Geschwindigkeit und Genauigkeit im Streaming-ASR auf – das ist die technisch bedeutsame Aussage, nicht allein die Latenzkenngröße. Sollte dies unter realen Produktionsbedingungen standhalten, eröffnet es Sprachagenten in anspruchsvollen Vertikalen, die Streaming-ASR bislang nicht zuverlässig bedienen konnte.