Meta FAIR Autodata: Agentischer Datenwissenschaftler öffnet 34-Punkte-Genauigkeitslücke
Meta FAIR hat Autodata veröffentlicht – einen Planer-Ausführer-Agenten, der Trainings- und Evaluierungsdaten autonom in einer Selbstinstruktions-Schleife aufbaut: Der Agent generiert Kandidatenbeispiele, bewertet sie hinsichtlich Qualität und Abdeckung, verfeinert die schwächsten und wiederholt den Prozess. Bei einer CS-Forschungs-QA-Aufgabe öffnete das Training mit Autodata-generierten Daten eine Genauigkeitslücke von 34 Punkten zwischen schwacher Baseline und starkem Modell – deutlich größer als die Gewinne, die mit handelsüblichen Instruktionsdatensätzen erreichbar sind. NLP Newsletter ordnet den Ansatz als Repositionierung der synthetischen Datengenerierung von einem Vorverarbeitungsschritt hin zu einem Inferenz-Compute-Mehrwert ein.
Einordnung
Eine 34-Punkte-Genauigkeitslücke aus autonomer Datengenerierung verändert die Ökonomie des Fine-Tunings: Statt aufwendiger menschlicher Annotation betreibt die Datenfabrik zur Inferenzzeit. Dies stellt menschliche Annotationspipelines für die Feinabstimmung auf Spezialdomänen direkt in Frage und fügt sich nahtlos in das übergreifende Wochenthema selbstverbessernder Agenten ein.