Meta FAIR Autodata: Agentischer Datenwissenschaftler öffnet 34-Punkte-Genauigkeitslücke

Meta FAIRs Autodata ist ein Planer-Ausführer-Agent, der Trainings- und Evaluierungsdaten in einer geschlossenen Selbstinstruktions-Schleife autonom generiert, bewertet und verfeinert – und dabei eine Genauigkeitslücke von 34 Punkten zwischen schwachen und starken Modellen bei einer CS-Forschungs-QA-Aufgabe öffnet.

Meta FAIR Autodata: Agentischer Datenwissenschaftler öffnet 34-Punkte-Genauigkeitslücke

Meta FAIR hat Autodata veröffentlicht – einen Planer-Ausführer-Agenten, der Trainings- und Evaluierungsdaten autonom in einer Selbstinstruktions-Schleife aufbaut: Der Agent generiert Kandidatenbeispiele, bewertet sie hinsichtlich Qualität und Abdeckung, verfeinert die schwächsten und wiederholt den Prozess. Bei einer CS-Forschungs-QA-Aufgabe öffnete das Training mit Autodata-generierten Daten eine Genauigkeitslücke von 34 Punkten zwischen schwacher Baseline und starkem Modell – deutlich größer als die Gewinne, die mit handelsüblichen Instruktionsdatensätzen erreichbar sind. NLP Newsletter ordnet den Ansatz als Repositionierung der synthetischen Datengenerierung von einem Vorverarbeitungsschritt hin zu einem Inferenz-Compute-Mehrwert ein.

Einordnung

Eine 34-Punkte-Genauigkeitslücke aus autonomer Datengenerierung verändert die Ökonomie des Fine-Tunings: Statt aufwendiger menschlicher Annotation betreibt die Datenfabrik zur Inferenzzeit. Dies stellt menschliche Annotationspipelines für die Feinabstimmung auf Spezialdomänen direkt in Frage und fügt sich nahtlos in das übergreifende Wochenthema selbstverbessernder Agenten ein.