Prism ML liefert ternäres Flux 2 Klein 4B: 7,7 GB auf 1,2 GB komprimiert
Prism ML veröffentlichte ternäre (1,58-Bit-) und binäre (1-Bit-)Quantisierungen von Black Forest Labs' Flux 2 Klein 4B Bildmodell — Komprimierung des 7,7-GB-Checkpoints auf rund 1,2 GB (ternär) bzw. unter 1 GB (binär). Prism ML behauptet eine Benchmark-Retention von 88–95 %. Unabhängige Tests von Tim Carambat (Anything LLM) auf einem M4 Pro ergaben akzeptable Resultate bei künstlerischen Prompts, aber deutliche Qualitätseinbußen bei Text-Rendering, Produktvisualisierungen und fotorealistischen Szenen. Verfügbar in MLX- (Apple Silicon) und Gemite- (CUDA/Windows/Linux) Runtimes.
Warum das relevant ist
Bildmodell-Quantisierung bei LLM-äquivalenten Kompressionsraten ist ein Novum. Doch die reale Qualitätslücke — Benchmarks zeigen 95 % Retention, Text- und strukturelle Prompts scheitern jedoch in der Produktion — verdeutlicht einen fundamentalen Unterschied in der Reife zwischen LLM- und Bildmodell-Quantisierung. Der Meilenstein „iPhone-fähiges Bildmodell" ist behauptet, in der Praxis aber noch nicht eingelöst.