MLOps.community: KI-Evaluierungen müssen ab der Ideen-Phase beginnen, nicht erst beim Release

Eine 126-minütige MLOps.community-Folge mit der Evaluierungs-Praktikerin Maggie argumentiert, dass KI-Evaluierung eine Entwicklungsdisziplin ist — kein Release-Gate. Kernthese: Evaluierungen müssen bereits in der Ideen-Phase konzipiert werden, in distinkte Pre-Produktions-Tracks (simulierte Personas, synthetische Szenarien, Varianz-Messung) und Post-Produktions-Tracks (Offline-Analyse plus Online-Verhaltensmetriken) aufgeteilt sein und pro Use Case an eine spezifische Geschäftsmetrik geknüpft werden — Conversion, Zufriedenheit oder Retention. Teams, die Evaluierungen erst nach dem Launch aufsetzen, „müssen ihr Eval-System immer wieder neu aufbauen". Die Folge argumentiert dezidiert gegen generische 0-1-Evaluierungs-Scores, ausgelagerte Beschriftung und 20-Evaluatoren-Dashboards, die vom Geschäftsergebnis entkoppelt sind. Maggies Team baute seine eigene Evaluator-Infrastruktur, weil die Marktlücke bei grundlegendem Evaluator-Training, Sampling und der Entdeckung von Fehlermustern liegt — nicht bei mehr Dashboards.

Warum das relevant ist

Die beschriebene Evaluierungsdisziplin — an Geschäftsmetriken geknüpft, intern aufgebaut, kontinuierlich von der Ideen-Phase bis nach dem Launch — ist der Reifegrad-Standard, der Produktions-Agentensysteme von Demos trennt. Da Eval-Tooling noch weitgehend unreif ist, gibt dieses Framework Teams unabhängig vom eingesetzten Observability-Anbieter ein klares architektonisches Ziel.