DeepSeek V4-Pro als Open Source veröffentlicht — 10-fache KV-Cache-Reduktion

DeepSeek hat V4-Pro (1,6T gesamt / 49B aktive Parameter, 1M-Token-Kontext) und V4-Flash (284B gesamt / 13B aktiv) mit offenen Gewichten und einem technischen Bericht auf HuggingFace als Open Source freigegeben. Das Modell erreichte in nur 43 Minuten Platz 1 der HuggingFace-Trending-Liste — schneller als jedes Modell vor ihm — mit über 500 Likes in den ersten 28 Minuten. Der maßgebliche architektonische Fortschritt ist eine 10-fache Reduzierung des KV-Cache gegenüber DeepSeek V3.2: Bei 1M Kontext auf GB300 NVLink 72 Hardware erforderte V3.2 einen KV-Cache von 35,60 GB und erlaubte lediglich 4 gleichzeitige Anfragen; die 10-fache Reduktion von V4-Pro multipliziert diesen Wert auf annähernd 40 parallele Anfragen auf derselben Hardware. V4-Pro übertrifft Claude Opus 4.6 im Terminal Bench. Die API wurde gleichentags aktualisiert; die Modelle sind zudem über chat.deepseek.com im Expertenmodus / Sofortmodus zugänglich.

Warum das relevant ist

Die 10-fache KV-Cache-Reduktion multipliziert die Inferenz-Parallelität bei langen Kontexten unmittelbar — dies ist keine Benchmark-Geschichte, sondern eine Frage der Infrastrukturökonomie. In Verbindung mit offenen Gewichten und der bestätigten Unterstützung für Huawei Ascend 950 Hardware positioniert sich DeepSeek V4 als glaubwürdige Open-Source-Alternative zu proprietären Frontier-Modellen für Hochlast-Deployments.