Google veröffentlicht Gemma 4 12B: Encoder-freies multimodales Modell

Google veröffentlicht Gemma 4 12B unter Apache 2.0: ein einheitliches, encoder-freies multimodales Modell mit 256K Kontextlänge, nativer Audio-/Bild-/Videounterstützung und agentischem Reasoning — läuft in 16 GB VRAM mit sofortiger Unterstützung in Transformers, llama.cpp und MLX.

1 Min. Lesezeit|agenticonsult Intelligence

Google veröffentlicht Gemma 4 12B: Encoder-freies multimodales Modell

Google hat Gemma 4 12B unter Apache 2.0 veröffentlicht — ein einheitliches multimodales Modell ohne separaten Encoder für einzelne Modalitäten. Text, Bild, Audio und Video werden durch eine gemeinsame leichtgewichtige Projektion in den geteilten Token-Raum überführt. Mit 256K Kontextlänge, nativem Tool-Calling und agentischem Reasoning passt das Modell in 16 GB VRAM und wurde auf einer 10 Jahre alten Xeon-CPU unter LM Studio und Ollama demonstriert.

Warum das wichtig ist

Die Encoder-freie Architektur macht lokales agentisches multimodales Reasoning auf Laptop-Niveau praktisch — und senkt damit direkt die Hardwareanforderungen für datenschutzfreundliche, gerätegebundene KI-Agentendeployments ohne GPU-Budget.

Primaerquelle

Google

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.