Alibabas AgenticQwen-30B (3B aktiv) erreicht Qwen3-235B-Niveau beim Tool-Einsatz

Alibabas AgenticQwen-30B-A3B nutzt lediglich 3 Milliarden aktive Parameter, erzielt auf den TAU-2- und BFCL-V4-Multi-Turn-Tool-Use-Benchmarks jedoch denselben Wert wie Qwen3-235B — ermöglicht durch zwei parallele Reinforcement-Learning-Schleifen.

1 Min. Lesezeit|agenticonsult Intelligence

Alibabas AgenticQwen-30B (3B aktiv) erreicht Qwen3-235B-Niveau beim Tool-Einsatz

Alibabas AgenticQwen-30B-A3B, ein Mixture-of-Experts-Modell mit lediglich 3 Milliarden aktiven Parametern, erzielt auf den TAU-2- und BFCL-V4-Multi-Turn-Benchmarks einen Durchschnittswert von 50,2 — und hält damit mit dem Flaggschiff Qwen3-235B mit. Das Rezept: zwei parallele Reinforcement-Learning-Schleifen, von denen eine aus eigenen Fehlern lernt und die andere mit simulierten adversariellen Nutzern arbeitet. AgenticQwen-8B schließt den verbleibenden Abstand weitgehend.

Einordnung

Für tool-intensive Produktionsagenten ist Reasoning auf Frontier-Niveau empirisch gesehen Overkill. Die Kostenstruktur leistungsfähiger Agenten verändert sich grundlegend: MoE-Architekturen mit niedrigen aktiven Parameterzahlen sind der neue Effizienzstandard für werkzeugintensive Workloads.

#alibaba #qwen #agents #open-source #benchmarks

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

Alle Live-News anzeigen

Live News Feed

20:01Claude Code Skills-Ökosystem erreicht 100+ Plugins – Produktions-Stack kristallisiert sich heraus 20:01Google Gemma 4 E2B/E4B ermöglicht Agent-Skills auf Edge-Geräten via LiteRT-LM 20:01DeepSeek V4 überrascht bei 10M+ Tokens mit drastisch niedrigeren Kosten als Claude