OpenAI veröffentlicht drei Echtzeit-Sprachmodelle inklusive GPT-Realtime-2

OpenAI hat drei neue Sprachmodelle in seiner Realtime API veröffentlicht: GPT-Realtime-2 (GPT-5-klassiges Reasoning für produktive Sprachagenten), GPT-Realtime-Translate (Streaming-Übersetzung über 70 Eingangssprachen und 13 Ausgabesprachen) sowie GPT-Realtime-Whisper (Echtzeit-Audiotranskription).

OpenAI veröffentlicht drei Echtzeit-Sprachmodelle inklusive GPT-Realtime-2

OpenAI hat in seiner Realtime API drei Modelle gleichzeitig veröffentlicht: GPT-Realtime-2 (das bislang intelligenteste Sprachmodell des Unternehmens mit GPT-5-klassigem Reasoning, das Unterbrechungen verarbeiten kann), GPT-Realtime-Translate (Streaming-Übersetzung über 70 Eingangssprachen und 13 Ausgabesprachen) sowie GPT-Realtime-Whisper (Echtzeit-Audiotranskription für Live-Untertitel). Sam Altman bezeichnete GPT-Realtime-2 als „einen bedeutenden Schritt nach vorne" und verwies auf wachsende Sprachnutzung, insbesondere unter jüngeren Nutzern.

Warum das relevant ist

Der koordinierte Dreifach-Launch signalisiert einen bewussten Vorstoß der Branche, Sprache im zweiten Halbjahr 2026 zur dominanten KI-Schnittstelle zu machen. Sprachnative Agenten-Architekturen dürften in den Bereichen Kundenservice, Barrierefreiheit und Echtzeit-Übersetzung eine beschleunigte Verbreitung erfahren.