OpenAI veröffentlicht Post-Mortem zum GPT-5.1-'Goblin'-Persönlichkeitsartefakt

OpenAI hat ein transparentes Post-Mortem zum goblinartigen Verhalten veröffentlicht, das mit dem GPT-5.1-Launch aufgetreten ist. Grundursache: Eine Trainingskonfiguration mit „nerdiger Persönlichkeit" in Codex hat Verweise auf Goblins und magische Inhalte übergewichtet und sich über aufeinanderfolgende Modellgenerationen verstärkt. Die Korrektur — Entfernung des affinen Reward-Signals und Filterung von Trainingsdaten, in denen kreaturenbezogene Texte in irrelevanten Kontexten erschienen — wurde auf zukünftige Modelle angewendet.

Einordnung

Diese Offenheit bei der Offenlegung von Trainingsartefakten ist ungewöhnlich; sie setzt einen Präzedenzfall für Transparenz bei Modellverhalten und bietet Alignment-Praktikern ein konkretes Fallbeispiel. Das Verhalten kann Berichten zufolge innerhalb von Codex weiterhin ausgelöst werden.