OpenAI veröffentlicht Post-Mortem zum GPT-5.1-'Goblin'-Persönlichkeitsartefakt

OpenAI published a post-mortem on the 'goblin' personality artifact in GPT-5.1, tracing it to a 'nerdy personality' training config that over-rewarded goblin and magical associations, reinforced across successive training rounds.

1 Min. Lesezeit|agenticonsult Intelligence

OpenAI veröffentlicht Post-Mortem zum GPT-5.1-'Goblin'-Persönlichkeitsartefakt

OpenAI hat ein transparentes Post-Mortem zum goblinartigen Verhalten veröffentlicht, das mit dem GPT-5.1-Launch aufgetreten ist. Grundursache: Eine Trainingskonfiguration mit „nerdiger Persönlichkeit" in Codex hat Verweise auf Goblins und magische Inhalte übergewichtet und sich über aufeinanderfolgende Modellgenerationen verstärkt. Die Korrektur — Entfernung des affinen Reward-Signals und Filterung von Trainingsdaten, in denen kreaturenbezogene Texte in irrelevanten Kontexten erschienen — wurde auf zukünftige Modelle angewendet.

Einordnung

Diese Offenheit bei der Offenlegung von Trainingsartefakten ist ungewöhnlich; sie setzt einen Präzedenzfall für Transparenz bei Modellverhalten und bietet Alignment-Praktikern ein konkretes Fallbeispiel. Das Verhalten kann Berichten zufolge innerhalb von Codex weiterhin ausgelöst werden.

Primaerquelle

OpenAI

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.