Alibabas AgenticQwen-30B (3B aktiv) erreicht Qwen3-235B-Niveau beim Tool-Einsatz
Alibabas AgenticQwen-30B-A3B, ein Mixture-of-Experts-Modell mit lediglich 3 Milliarden aktiven Parametern, erzielt auf den TAU-2- und BFCL-V4-Multi-Turn-Benchmarks einen Durchschnittswert von 50,2 — und hält damit mit dem Flaggschiff Qwen3-235B mit. Das Rezept: zwei parallele Reinforcement-Learning-Schleifen, von denen eine aus eigenen Fehlern lernt und die andere mit simulierten adversariellen Nutzern arbeitet. AgenticQwen-8B schließt den verbleibenden Abstand weitgehend.
Einordnung
Für tool-intensive Produktionsagenten ist Reasoning auf Frontier-Niveau empirisch gesehen Overkill. Die Kostenstruktur leistungsfähiger Agenten verändert sich grundlegend: MoE-Architekturen mit niedrigen aktiven Parameterzahlen sind der neue Effizienzstandard für werkzeugintensive Workloads.