NVIDIA Nemotron 3 Ultra: Vollständig offenes 550B-MoE-Modell für Langzeit-Agenten

NVIDIA hat Nemotron 3 Ultra veröffentlicht — ein vollständig offenes 550-Milliarden-Parameter-Mixture-of-Experts-Modell, das zur Inferenzzeit lediglich 55 Milliarden Parameter aktiv nutzt. Das Ergebnis: 5-fach höherer Durchsatz und bis zu 30 % niedrigere Kosten im Vergleich zu ähnlichen offenen Frontier-Modellen. Drei unabhängige Intelligence-Batches werteten dies als das bedeutendste Open-Modell-Ereignis der Woche. LangChain verkündete zeitgleich die Day-0-Unterstützung für Deep Agents als Gründungsmitglied der Nemotron-Coalition; Hugging Face lieferte am Veröffentlichungstag eine Day-0-Integration in Transformers.

Was die Quellen belegen

Die Effizienzgewinne sind architekturbedingt. Nemotron 3 Ultra verwendet ein hybrides Mamba-2/Transformer-Design mit einem Mamba-zu-Attention-Verhältnis von etwa 4:1 — weniger vollständige Attention-Layer bedeuten schnellere Generierung bei den kontextintensiven Agenten-Workloads, auf die NVIDIA ausdrücklich abzielt. Das Modell wurde auf 20 Billionen Tokens in NVFP4-Präzision vortrainiert, setzt eine LatentMoE-Architektur ein und durchlief ein zweistufiges MOPD-Post-Training sowie natives Multi-Token-Prediction für spekulatives Decoding. Das Kontextfenster beträgt 1 Million Token. Verfügbar sind BF16- und NVFP4-quantisierte Gewichte (~350 GB in BF16) sowie ein Reasoning-Schalter, Werkzeugnutzung und mehrsprachige Unterstützung.

NVIDIAs Veröffentlichungsumfang ist ungewöhnlich vollständig: Basis-Gewichte, post-trainierte Gewichte, Reward-Modell-Checkpoints, NVFP4-quantisierte Versionen, vollständige Trainingsdaten und Trainingsrezepte sind alle auf Hugging Face unter der OpenMDW-1.1-Lizenz (Linux Foundation) veröffentlicht. NVIDIA führte OpenMDW-1.1 gleichzeitig für die Modellreihen Cosmos, Isaac GR00T, Ising und Nemotron ein — ein klares Signal, dass die Open-Modell-Lizenzinfrastruktur für die physischen und agentischen KI-Stacks in einem Schritt standardisiert wird. Am selben Tag erschien auch ein begleitendes agentisches Sicherheitsdatenset: 1.272 synthetische Red-Teaming-Einträge aus neun Unternehmensdomänen, die die Widerstandsfähigkeit werkzeugnutzender Agenten gegenüber indirekter Prompt-Injektion testen sollen.

Strategische Einordnung

Die Day-0-Bildung der Nemotron-Coalition — LangChain, Hugging Face, vorgestaffelt für den Launch — deutet darauf hin, dass NVIDIA über offene Modelle dasselbe Ökosystem-Lock-in aufbaut, das Cloud-Anbieter über Regionen etabliert haben. Teams, die offene Frontier-APIs für Langzeit-Agenten-Workloads evaluieren, sollten die 5-fach-Inferenz-Behauptung gegen die eigenen Token-Kosten benchmarken. Der architektonische Ansatz bei der Mamba-2-Effizienz ist strukturell — kein bloßer Quantisierungstrick.