Endless Terminals: RL-Aufgaben-Datensatz erreicht 73.000 HF-Downloads in einem Monat

Endless Terminals, ein Praktikumsprojekt von Kanishk Gandhi, generiert autonome Terminal-Aufgaben für Reinforcement-Learning-Training mittels einfachem PPO auf skalierten Umgebungen – ohne menschliche Annotierung. Der Datensatz erreichte in seinem ersten Monat über 73.000 Hugging-Face-Downloads und zeigt konsistente nachgelagerte Verbesserungen auf TerminalBench 2.0.

Warum das relevant ist

Autonome RL-Aufgabengenerierung ohne menschliche Annotierung adressiert direkt den Skalierungsengpass für RL-trainierte Agenten. Wenn Pipelines autonom diverse, hochwertige Trainingsaufgaben erzeugen können, wird die „Datenwand", die den Umfang von RL-Agenten begrenzt, zu einem lösbaren Ingenieursproblem – mit Implikationen für jedes Team, das Agenten auf Terminal- oder Code-Ausführungsaufgaben trainiert.