Harvey + LangChain Labs: Rechtliche KI-Verifikation 1.000-fach günstiger

Harvey und LangChain Labs veröffentlichen eine Effizienzstudie zu einem rechtlichen KI-Verifikator: Batch-LLM-as-Judge-Scoring reduziert die Verifikationskosten um den Faktor ~1.000 gegenüber Einzelkriterium-Aufrufen. DeepSeek v4 Flash bewahrt 94–96 % des Opus-4.7-Verifikatorsignals bei 18-fach niedrigeren Kosten pro Kriterium.

Harvey + LangChain Labs: Rechtliche KI-Verifikation 1.000-fach günstiger

Harvey und LangChain Labs haben eine Studie veröffentlicht, die zeigt: Batch-LLM-as-Judge-Scoring — ein einziger Aufruf bewertet alle Kriterien gleichzeitig statt je eines einzeln — reduziert die Verifikationskosten für rechtliche Agenten um den Faktor ~1.000. Harveys Legal Agent Benchmark umfasst 1.200+ Aufgaben aus 24 Rechtsbereichen mit durchschnittlich 50+ Bewertungskriterien je Antwort. Der Einsatz von DeepSeek v4 Flash als Batch-Judge bewahrt 94–96 % des Opus-4.7-Verifikatorsignals bei 18-fach niedrigeren Kosten je Kriterium; in einem RL-Setting mit 3.200 Rollouts sanken die Verifikationskosten von 18.000 USD auf 18 USD.

Warum das wichtig ist

Kostenintensive Verifikation war bislang das praktische Hindernis für RL-basiertes Finetuning bei rechtlichen Agenten — eine 1.000-fache Kostenreduktion macht iterative Qualitätsverbesserung von Agenten im Unternehmensmaßstab wirtschaftlich tragbar.