Alibabas Happy Horse führt die Artificial-Analysis-Liste an, versagt aber im Praxistest

Alibabas Happy-Horse-Videogenerierungsmodell rangiert auf dem Artificial-Analysis-Leaderboard rund 100 Punkte über Seedance 2.0, bricht aber bei unabhängigen Head-to-Head-Tests bei physikalischer Kohärenz und Prompt-Treue deutlich ein, was Benchmark-Kontamination als plausible Erklärung nahelegt.

1 Min. Lesezeit|agenticonsult Intelligence

Alibabas Happy Horse führt die Artificial-Analysis-Liste an, versagt aber im Praxistest

Alibabas Videogenerierungsmodell Happy Horse liegt auf dem Artificial-Analysis-Video-Leaderboard rund 100 Punkte vor Seedance 2.0, bricht aber in unabhängigen realen Testszenarien bei der physikalischen Kohärenz und Prompt-Treue ein. Das Modell ist kostenlos auf Alibabas Plattform verfügbar; unabhängige Reviewer führten direkte Head-to-Head-Vergleiche mit Seedance 2.0 anhand von Prinzessinnen- und Zoom-Prompts durch und befanden Seedance 2.0 klar überlegen. Die Diskrepanz zwischen Leaderboard-Rang und Praxisleistung legt Benchmark-Kontamination als plausible Erklärung nahe.

Einordnung

Leaderboard-first-Modellveröffentlichungen entwickeln sich 2026 zu einem verlässlichen Anti-Muster; selbstberichtete Artificial-Analysis-Ranglisten als Marketing statt als Grundlage zu behandeln, ist für Praktiker inzwischen die Standardhaltung.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.