Meta FAIR Selbstverbesserndes Pre-Training: 36,2 % Faktualitätssteigerung beim Training
Meta FAIR hat einen Selbstverbessernden Pre-Training-Ansatz veröffentlicht, bei dem ein starkes nachtrainiertes Modell sowohl als Umschreiber als auch als Evaluator beim Pre-Training des nächsten Modells eingesetzt wird. Statt die Vorhersage des nächsten Tokens zu optimieren, nutzt die Methode RL-geformte Sequenzgenerierung, die durch den nachtrainierten Bewerter geleitet wird. Ergebnisse auf der kuratierten wöchentlichen Papierliste des NLP Newsletter: 36,2 % Faktualitätssteigerung, 18,5 % Sicherheitsverbesserung und eine Win-Rate von 86,3 % bei der Generierungsqualität gegenüber Standard-Pre-Training-Baselines. Der Ansatz implementiert die Selbstverbesserungsschleife auf der Pre-Training-Ebene – wo sich Verhaltensweisen dauerhaft festigen – statt nur beim Fine-Tuning oder RL-Post-Training.
Einordnung
Selbstverbesserung auf der Pre-Training-Ebene anzuwenden ist strukturell anders als nachgelagerte RLHF- oder SFT-Korrekturen. Faktualitäts- und Sicherheitsverbesserungen, die ins Pre-Training eingebettet sind, sind dauerhafter als nachträgliche Korrekturen und übertragen sich auf alle Fine-Tuning-Nachfolger des Basismodells.