Mercors APEX-Agents-Benchmark erhält Hugging Face Leaderboard für Open-Source-Modelle

Mercors APEX-Agents-Benchmark – konzipiert, um zu prüfen, ob Modelle die reale Arbeit von Beratern, Anwälten und Bankern leisten können – verfügt nun über ein offizielles Hugging Face Leaderboard zur Verfolgung der Leistung von Open-Source-Modellen. Der Datensatz ist öffentlich unter huggingface.co/datasets/mercor/apex-agents verfügbar.

Mercors APEX-Agents-Benchmark erhält Hugging Face Leaderboard für Open-Source-Modelle

Mercors APEX-Agents-Benchmark – eine anspruchsvolle Evaluation, die prüft, ob KI-Modelle die reale Arbeit von Beratern, Anwälten und Bankern übernehmen können – verfügt nun über ein offizielles Hugging Face Leaderboard für Open-Source-Modelle. Der Datensatz ist öffentlich zugänglich und ermöglicht es jedem Team, Open-Weight-Modelle an professionellen Wissensarbeitsaufgaben zu evaluieren und die Ergebnisse auf einem standardisierten Leaderboard zu vergleichen.

Warum das relevant ist

APEX-Agents schließt eine Benchmark-Lücke: Die meisten Agenten-Evaluierungen konzentrieren sich auf Coding oder Mathematik, während professionelle Wissensarbeit – rechtliche Analyse, Finanzmodellierung, Beratungsstrategie – bislang über keine standardisierte offene Evaluierung verfügt. Das HF Leaderboard erleichtert die Verfolgung, welche Open-Modelle den Rückstand bei diesen unternehmensrelevanten Aufgaben aufholen.