Virginia-Tech-Preprint stellt Skill-MD-Paradigma mit modellnativen Skills infrage

Ein Virginia-Tech-Preprint (19. April 2026) argumentiert, dass der Skill-MD / Design-MD-Ansatz, den Anthropic und Google aktiv propagieren, ein lokales Maximum darstellt. Mithilfe von Sparse Autoencoders extrahieren die Autoren „modellnative Skills" — die latenten Achsen der Verhaltensvarianz, die das Modell während des Pretrainings entwickelt hat — und nutzen diese zur Auswahl von SFT-Daten. Das Ergebnis übertrifft das beste menschlich kuratierte skill-basierte Fine-Tuning sowohl bei Llama-3 8B als auch bei Qwen 2.5 3B.

Was die Quelle tatsächlich sagt

Die direkten SFT-Gewinne sind bescheiden, aber konsistent: Llama-3 8B verbessert sich von 38,4 % (bestes Human-Skill-SFT) auf 39,6 % mit modellnativem SFT; Qwen 2.5 3B von 56 % auf 57,7 %. Das größere Ergebnis liegt in der Datenselektion: Indem Trainingsbeispiele in den Aktivierungsraum des Modells projiziert und Richtungen priorisiert werden, in denen das Modell aktuell am schwächsten ist — ein „Repräsentationsfehler-Curriculum" — erzielen die Autoren 20 % Gewinn auf MATH-1 und 41 % Gewinn auf AMC mit deutlich weniger Beispielen, als textuelle Diversitätsselektion erfordern würde.

Die Pipeline, in einem öffentlichen (anonymen) GitHub-Repository dokumentiert, läuft in vier Schritten: Residual-Stream-Aktivierungen auf Reasoning-Beispielen extrahieren → latente Skill-Achsen via Sparse Autoencoder entdecken → das Modell in Richtung identifizierter Richtungen steuern → SFT konfigurieren. Die entscheidende Implikation des Tools: Ein menschlicher „Skill" ist eine Trajektorie durch den Aktivierungsraum, die aus mehreren atomaren Einheitsvektoren zusammengesetzt wird — und eine Skill-MD-Datei ist echtes Engineering, kompensiert aber schwache zugrundeliegende Aktivierungs-Primitive anstatt sie zu stärken.

Ein paralleler Befund mit Implikationen für Safety Alignment: Bei der Jailbreak-Abwehr übertraf native direktionale Abdeckung die textuelle Diversität adversarialer Prompts. Das Taxonomie-Diskrepanz-Problem erstreckt sich jenseits der Fähigkeitsdimension in die Sicherheitsebene. Die Autoren des Papers schlagen zudem „Steering Vectors als Zero-Token-Cost-System-Prompts" vor — erfolgreiche Ausgabe-Aktivierungen mitteln und zur Inferenzzeit injizieren, um Meta-Prompts ohne Kontext-Overhead zu ersetzen.

Strategische Einschätzung

Dies invalidiert aktuelle Skill-MD-Investitionen nicht — Herks produktive Playwright-Automatisierungs-Skills werden heute ausgeliefert und summieren sich sitzungsübergreifend, unabhängig davon, was auf der Fine-Tuning-Ebene passiert. Die relevante Frage für Teams, die dauerhafte KI-Produkte aufbauen, ist, ob Scaffolding-Investitionen in den nächsten 12–18 Monaten diminishing returns produzieren, wenn Representation-Engineering-Tooling reift. Dem VT-Repo und der SAFNO (sparse-autoencoder neural operators)-Forschungslinie zu folgen, ist die kostengünstigste Absicherung.

Virginia-Tech-Preprint stellt Skill-MD-Paradigma mit modellnativen Skills infrage