GPT-5.5 Instant erscheint mit 52,5 % weniger Halluzinationen
OpenAI hat begonnen, GPT-5.5 Instant gleichzeitig für alle ChatGPT-Nutzer und die API auszurollen — unter Angabe einer 52,5-prozentigen Reduktion halluzinierter Aussagen bei hochsensiblen Anfragen in Medizin, Recht und Finanzen. Sollte dieser Wert einer unabhängigen Überprüfung standhalten, schließt er einen wesentlichen Teil der Lücke zwischen großen Sprachmodellen und dem Zuverlässigkeitsniveau, das regulierte Branchen voraussetzen.
Was die Quellen tatsächlich berichten
TechSnif berichtet unter Berufung auf Megan Morrone bei Axios — sowie neun korroboierende Quellen — dass der Rollout aktiv und ohne Abstufung nach Nutzerkategorie erfolgt: ChatGPT-Standardzugang und API-Verfügbarkeit werden im Gleichschritt freigegeben. Die 52,5-%-Verbesserung gilt ausdrücklich für hochsensible Anfragen — jene Kategorie, in der Halluzinationen die höchsten realen Kosten verursachen — und nicht für die durchschnittliche Genauigkeit bei allgemeinen Anfragen. OpenAI hat keine Methodik zu dieser Kennzahl veröffentlicht; sie entstammt internen Evaluierungen.
Noch am selben Morgen lieferte Sam Altman auf X eine bewusst zweideutige Vorschau. Er beschrieb das Modell als mit einer „autistischen Genie-Intelligenz" ausgestattet, mit sehr ungewöhnlichen Namenskonventionen, und ergänzte, es sei „erschütternd, dass wir so etwas bauen würden." Im gleichen Thread rahmte er den asynchronen Delegations-Loop von Codex als Beleg für den praktischen Nutzen des Modells: Aufgaben anstoßen, sich entfernen, zu erledigter Arbeit zurückkehren. Die Kombination ist kein Zufall — asynchrone Zuverlässigkeit (Codex) und sachliche Zuverlässigkeit (GPT-5.5 Instant) werden als komplementäre Achsen positioniert, nicht als getrennte Veröffentlichungen.
Die morgendliche X-Andeutung gefolgt von der nachmittäglichen Newsletter-Bestätigung entspricht OpenAIs eingespieltem Vorab-Spielplan: Altman sät Erwartungen, bevor die formale Berichterstattung einsetzt — und gibt Verlagen einen kohärenten Handlungsbogen anstatt einer kalten Ankündigung.
Strategische Einordnung
Für Teams, die GPT-5.5 Instant in regulierten Branchen evaluieren, verlangt der 52,5-%-Wert domänenspezifisches Red-Teaming, bevor er Produktionsentscheidungen informiert — OpenAIs interne Benchmarks haben historisch keine unabhängige Replikation umfasst. Der simultane API-Rollout ist das operativ bedeutsame Detail: Unternehmensintegrationen können die Evaluierung jetzt aufnehmen, ohne auf gestuften Zugang zu warten. Die Codex-Async-Rahmung neben dem Halluzinationsthema signalisiert zudem, dass autonome Aufgabendelegation — und nicht allein Q&A-Qualität — zur primären Wettbewerbsachse von OpenAI in der zweiten Jahreshälfte 2026 wird.



