Mistral veröffentlicht erstes Open-Source-Frontier-TTS-Modell mit 17 ms Erstton-Latenz

Mistral hat sein erstes Open-Source-Frontier-Text-to-Speech-Modell veröffentlicht, das von KI-Wissenschaftler Samuel Humeau auf der AI-Engineer-Konferenz präsentiert wurde. Das Modell umfasst rund 4 Milliarden Parameter, erreicht 17 ms Erstton-Latenz auf einer einzigen GPU und verwendet ein autogressives Backbone mit Flow-Matching-Diffusionsköpfen, um alle 37 Codec-Token pro 80-ms-Audioframe simultan zu erzeugen. Mistral hat die Inferenzgewichte und eine Auswahl offener Stimmen veröffentlicht, den für Voice Cloning verwendeten Encoder jedoch zurückgehalten und diese Fähigkeit für B2B-Deployments reserviert. Auf Qualitätsbasis direkt mit ElevenLabs und Cartesia zu konkurrieren und dabei Open-Weight zu sein, ist eine strukturelle Veränderung im Voice-AI-Markt.

Warum das wichtig ist

Eine Erstton-Latenz von 17 ms bei Frontier-Qualität, verfügbar als Open Weights, macht produktionsreife Sprachagenten für jedes Team zugänglich – und hebt damit eine Fähigkeit auf, die bislang hinter proprietären APIs abgesichert war. Die Architektur lässt sich zudem direkt in bestehende LLM-Agenten-Stacks integrieren.