Gemini 3.1 TTS lanciert mit Inline-Audio-Tag-System

Google hat Gemini 3.1 TTS mit einem neuartigen Inline-Audio-Tag-System auf Basis von eckiger-Klammer-Syntax gestartet — Entwickler können Stil, Tempo und Vokalisierungshinweise (z. B. [whispers], [slow], [cackles]) direkt im Prompttext steuern.

Gemini 3.1 TTS mit Inline-Audio-Tag-System gestartet

Google hat Gemini 3.1 TTS mit einem neuen Inline-Audio-Tag-System auf Basis von eckiger-Klammer-Syntax veröffentlicht. Entwickler können Stil, Tempo und Vokalisierungshinweise direkt im Prompttext einbetten — etwa: [screams], [whispers], [slow], [fast], [short pause], [long pause], [cackles]. Tags dürfen nicht unmittelbar nebeneinander platziert werden; verschiedene Hinweistypen lassen sich dabei inline kombinieren. Zu den Zielanwendungsfällen zählen Sprachlernplattformen, interaktive Podcast-Anwendungen und adaptive Kundenservice-Systeme.

Warum das relevant ist

Das Inline-Audio-Tag-System beseitigt die Notwendigkeit separater Prosodie-Konfigurations-APIs oder nachgelagerter Audio-Verarbeitungspipelines — die expressive TTS-Steuerung wird in denselben Prompt-Engineering-Workflow integriert, den Entwickler bereits für die Textgenerierung nutzen. Für Voice-AI-Anwendungen ist das ein bedeutsamer Schritt hin zur Behandlung von Sprachsynthese als erstklassige, promptgesteuerte Fähigkeit — anstelle einer parametergetunten Pipeline.