DeepSeek V4: Open Weights mit 1M-Token-Kontext, zum Siebtel des Opus-4.7-Preises
DeepSeek hat am 24. April zwei Open-Weight-Modelle veröffentlicht — V4-Pro (1,6 Bio. Parameter, 49 Mrd. aktiv, MoE) und V4-Flash (284 Mrd., 13 Mrd. aktiv) — beide mit 1M-Token-Kontext als Standardvorgabe, nicht als Premium-Tier. Vier unabhängige Quellenbatches konvergieren auf dieselbe Geschichte: Eine hybride CSA+HCA-Aufmerksamkeitsarchitektur reduziert den KV-Cache auf 10 % der Vorgängergeneration bei 1M Token; V4-Pro kostet etwa ein Siebtel des Ausgabepreises von Opus 4.7; und die API ist Drop-in-kompatibel mit beiden Call-Formaten — OpenAI und Anthropic.
Was die Quellen konkret besagen
Das architektonische Herzstück ist die CSA+HCA-Hybridaufmerksamkeit. CSA komprimiert je vier Token zu einem Eintrag; ein Lightning-Indexer ruft dann nur die 1.024 relevantesten ab — mit einem unkomprimierten 128-Token-Gleitfenster für kurzreichweitige Genauigkeit. HCA arbeitet entgegengesetzt: 128:1-Kompression, gleichzeitige Aufmerksamkeit auf alles. Der Wechsel beider Ansätze über die Schichten hinweg erreicht 27 % von V3.2s Rechenaufwand und 10 % seines KV-Cache bei 1M Token — nativ, ohne RoPE-Erweiterungstricks. Trainingsstabilität liefert mHC (Manifold-Constrained Hyper-Connections), eine doppelt-stochastische Mischmatrix, die die Signalverstärkung auf 1,6× begrenzt, gegenüber den 3.000× ohne diese Maßnahme.
Drei Reasoning-Modi — Non-Think, Think High, Think Max — ersetzen den binären An/Aus-Schalter. Auf dem HLE (Humanity's Last Exam) erzielen sie 7,7 % → 34,5 % → 37,7 %. Der Sprung von Think High auf Think Max beträgt nur 3,2 Punkte; Produktions-Deployments sollten Think High als Standard verwenden und Max für formale Beweise und komplexe Architekturaufgaben reservieren. Think Max erfordert ein Mindestkontextfenster von 384.000 Token, andernfalls wird das Reasoning vorzeitig abgebrochen.
Die Tests am Erscheinungstag bestätigen die Kernaussagen: Ein 800.000-Zeichen-Needle-in-Haystack-Test gelang; ein 500.000-Zeichen-Dokument ergab eine Abdeckung von über 90 % ohne wesentliche Halluzinationen; ~100 Tool-Calls auf V4-Flash verliefen fehlerfrei. Schwächen zeigt V4 bei: Langkontext-Abrufgenauigkeit (MRCR 1M: 83,5 vs. Opus 4.6s 92,9), Weltwissen (SimpleQA-Verified: 57,9 vs. Geminis 75,6) und agentischem Coding gegenüber dem aktuellen Closed-Frontier — der unabhängige Tester Jake Handy meldet Abstände von 3–15 Punkten. Ein Beschaffungshinweis: Der V4-Pro-Durchsatz hängt von Huawei Ascend 950 Supernodes ab, die für H2 2026 erwartet werden — relevant für EU-DSGVO- und US-CLOUD-Act-Kontexte.
Strategische Einordnung
Die Drop-in-Kompatibilität mit den OpenAI/Anthropic-APIs macht einen Modellwechsel zu einer realistischen Nachmittagsmigration. Leiten Sie V4-Flash für reasoning-intensive, hochvolumige Pipelines, bei denen Weltwissen per RAG eintrifft — es ist unabhängig vortrainiert (nicht von Pro destilliert), schlägt also anders fehl, was für Produktionsisolierung und Debugging relevant ist. Setzen Sie V4-Pro Think High als kostengünstigeren Tier unterhalb von Opus 4.7 für gemischte Workloads ein, wo die Closed-Frontier-Decke nicht benötigt wird.