VT-Preprint: KI-eigene Fähigkeiten übertreffen manuell definierte Skill-Dateien beim SFT

Ein Virginia-Tech-Preprint vom 19. April 2026 extrahiert „modell-native Fähigkeiten" — latente Achsen behavioraler Variation — direkt aus LLM-Residual-Stream-Aktivierungen mithilfe von Sparse Autoenkodern und nutzt diese Richtungen zur Selektion von Supervised-Fine-Tuning-Daten. Auf Llama-3 8B: modell-natives SFT erzielt 39,6 gegenüber dem besten menschlich-Skill-SFT mit 38,4. Auf Qwen 2.5 3B: 57,7 vs. 56. Der bedeutendere Befund ist ein 20%-Gewinn auf MATH-1 und 41% auf AMC durch die Selektion von SFT-Daten via „Representation Error Curriculum" — Priorisierung von Aktivierungsrichtungen, in denen das Modell aktuell am schwächsten ist — gegenüber textueller Diversität.

Warum das relevant ist

Das Anthropic/Google-Skill-MD-Paradigma — auf dem diese Publikation und viele unserer Peers aufbauen — ist laut diesem Paper ein lokales Maximum. Der Nachfolgeansatz arbeitet im Aktivierungsraum, nicht im Prompt-Space. Der Code ist öffentlich verfügbar; dies ist eine reproduzierbare Herausforderung an die aktuelle Best Practice, keine spekulative Theorie.