Google veröffentlicht Gemma 4 12B: Encoder-freies multimodales Modell
Google hat Gemma 4 12B unter Apache 2.0 veröffentlicht — ein einheitliches multimodales Modell ohne separaten Encoder für einzelne Modalitäten. Text, Bild, Audio und Video werden durch eine gemeinsame leichtgewichtige Projektion in den geteilten Token-Raum überführt. Mit 256K Kontextlänge, nativem Tool-Calling und agentischem Reasoning passt das Modell in 16 GB VRAM und wurde auf einer 10 Jahre alten Xeon-CPU unter LM Studio und Ollama demonstriert.
Warum das wichtig ist
Die Encoder-freie Architektur macht lokales agentisches multimodales Reasoning auf Laptop-Niveau praktisch — und senkt damit direkt die Hardwareanforderungen für datenschutzfreundliche, gerätegebundene KI-Agentendeployments ohne GPU-Budget.