Gemini 3.1 TTS mit Inline-Audio-Tag-System gestartet
Google hat Gemini 3.1 TTS mit einem neuen Inline-Audio-Tag-System auf Basis von eckiger-Klammer-Syntax veröffentlicht. Entwickler können Stil, Tempo und Vokalisierungshinweise direkt im Prompttext einbetten — etwa: [screams], [whispers], [slow], [fast], [short pause], [long pause], [cackles]. Tags dürfen nicht unmittelbar nebeneinander platziert werden; verschiedene Hinweistypen lassen sich dabei inline kombinieren. Zu den Zielanwendungsfällen zählen Sprachlernplattformen, interaktive Podcast-Anwendungen und adaptive Kundenservice-Systeme.
Warum das relevant ist
Das Inline-Audio-Tag-System beseitigt die Notwendigkeit separater Prosodie-Konfigurations-APIs oder nachgelagerter Audio-Verarbeitungspipelines — die expressive TTS-Steuerung wird in denselben Prompt-Engineering-Workflow integriert, den Entwickler bereits für die Textgenerierung nutzen. Für Voice-AI-Anwendungen ist das ein bedeutsamer Schritt hin zur Behandlung von Sprachsynthese als erstklassige, promptgesteuerte Fähigkeit — anstelle einer parametergetunten Pipeline.