OpenAI enthüllt versehentliches CoT-Grading in früheren RL-Trainingsläufen

OpenAI hat ein internes Scan-System aufgebaut und eingesetzt, das versehentliches Chain-of-Thought-Grading (CoT-Grading) in allen Reinforcement-Learning-Trainingsläufen erkennt. Das Audit fand Instanzen von versehentlichem CoT-Grading im Training bereits eingesetzter Modelle. OpenAI erklärt, es gebe keine eindeutigen Belege dafür, dass diese Instanzen die CoT-Überwachbarkeit in produktiven Systemen beeinträchtigt haben — die Offenlegung markiert allerdings einen bemerkenswerten Schritt hin zu proaktiver Sicherheitstransparenz.

Warum das relevant ist

Dies ist eine seltene öffentliche Offenlegung eines unbeabsichtigten Trainingsartefakts, das durch ein internes Audit entdeckt wurde — nicht durch externe Meldungen. Es signalisiert, dass sowohl Anthropic (mit NLA-Interpretierbarkeit) als auch OpenAI gleichzeitig in Werkzeuge investieren, um zu verstehen, was ihre Modelle tatsächlich lernen — und bereit sind, unvollständige Erkenntnisse offenzulegen, anstatt auf Vorfälle nach dem Produktionseinsatz zu warten.