NVIDIA veröffentlicht SANA: 20-mal kleiner, 100-mal schneller als Flux-12B

NVIDIA hat die SANA-Modellfamilie in vier Varianten als Open Source veröffentlicht. SANA-Sprint produziert 1024px-Bilder in 0,1 Sekunden auf H100 (0,3 s auf RTX 4090) und läuft bei 4-Bit-Quantisierung mit unter 8 GB VRAM. SANA-Video übertrifft 14B-Parameter-Konkurrenten mit einem 2B-Modell bei 36 s gegenüber 1.897 s Latenz. SANA-WM generiert 720p-Video über eine Minute Länge mit Kamerasteuerung. Das Sol-RL-Post-Training liefert eine 4,64-fach schnellere Konvergenz. Diffusers, ComfyUI und SGLang sind von Tag eins an integriert.

Warum das wichtig ist

SANA senkt die Hardware-Anforderungen für qualitativ hochwertige Bild- und Videogenerierung erheblich. Dass wettbewerbsfähige Bildgenerierung auf einer Consumer-RTX-4090 in Bruchteilen einer Sekunde möglich ist, öffnet den Stack für lokale Inference-Deployments, die bei dieser Qualitätsstufe bisher nicht praktikabel waren.