Sub Quadratics subQ: Sparse-Attention-Ansprüche unter der Lupe

6. Mai 20262 Min. Lesezeit|agenticonsult Intelligence

Maschinell aus dem Englischen übersetzt

Sub Quadratic bringt subQ an den Markt – ambitionierte Architektur, dünne Belege

Sub Quadratic hat sein „subQ"-Modell mit einer auffälligen Schlagzeile gelauncht: ein 12-Millionen-Token-Kontextfenster auf Basis von Sparse Attention, 52-mal recheneffizienter als FlashAttention bei 1 Million Tokens und unter 5 % der Anthropic-Opus-Preise. Die Architekturthese ist technisch legitim – Sparse Attention wählt semantisch relevante Tokens im gesamten Kontext vorab aus, statt auf ein lokales Fenster beschränkt zu bleiben, und vermeidet damit den quadratischen Compute-Anstieg, der Dense Attention limitiert. Sollten sich die Ansprüche bestätigen, wäre das sowohl für Cloud-Inferenzkosten als auch für lokale Modellviabilität bedeutsam.

Was die Quelle tatsächlich sagt

Tim Carambat (AnythingLLM) veröffentlichte am Launchtag ein technisches Audit. Sein zentraler Befund: Jeder veröffentlichte Benchmark testet das 1M-Preview-Modell, nicht das beworbene 12M-Modell. Das 12M-Modell hatte keine öffentlichen Benchmarks und keinen Early Access – Carambat beantragte Zugang und erwartete, nur die 1M-Preview zu erhalten.

Auf SWEBench Verified erzielte das 1M-Preview-Modell 81,8 im Vergleich zur Frontier-Konkurrenz – Opus 4.7 schnitt jedoch besser ab. Auf MRCRv2 für Long-Context-Retrieval bei 1 Million Tokens entdeckte Carambat eine direkte Inkonsistenz: Das Video zeigt 62 %, die Unternehmenswebsite zeigt 65,9 % für denselben Test. Im Video wurden zudem die Opus 4.6 und GPT-5.5 Vergleichszeilen der Website-Tabelle ausgelassen – was den Benchmark vorteilhafter erscheinen ließ, weil höher bewertete Konkurrenten fehlten.

Kein technischer Report begleitete den Launch. Die auf sozialen Medien verbreitete „98 % Genauigkeit"-Darstellung lässt sich auf kein veröffentlichtes Benchmark-Artefakt zurückführen. Carambats Gesamteinschätzung ist vorsichtiger Optimismus: DeepSeek v4 hat in der Vorwoche hybride Attention mit ähnlichen Long-Context-Effizienzzielen veröffentlicht, was bestätigt, dass die Richtung real ist – auch wenn subQs spezifische Ansprüche noch unverifiziert sind.

Strategische Einschätzung

Sparse Attention ist ein glaubwürdiger Long-Context-Effizienzpfad – die Konvergenz mit DeepSeek v4s hybridem Ansatz signalisiert einen echten Industrietrend, keinen Einzelanspruch. Doch subQs Launch verbindet echten architektonischen Ehrgeiz mit nicht verifizierten Schlagzahlen und messbaren Benchmark-Inkonsistenzen. Roadmap-Verpflichtungen sollten zurückgestellt werden, bis eine unabhängige Evaluation des tatsächlichen 12M-Modells vorliegt.

AI Intelligence Newsletter

Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.

Dieses Briefing wurde mit AI-Unterstuetzung aus kuratierten Quellen zusammengestellt. Alle Fakten wurden anhand der Originalpublikationen verifiziert.

Diskutieren aufLinkedIn X

Sub Quadratics subQ: Sparse-Attention-Ansprüche unter der Lupe

Sub Quadratic bringt subQ an den Markt – ambitionierte Architektur, dünne Belege

Was die Quelle tatsächlich sagt

Strategische Einschätzung

AI Intelligence Newsletter

Quellen

Verwandte Artikel

DeepSeek-V4 und Kimi-K2.6 verschieben die Open-Weights-Basis für KI-Agenten

DeepSeek V4-Pro: 10-fache KV-Cache-Effizienz als Open-Source-Modell

DeepSeek V4 überrascht bei 10M+ Tokens mit drastisch niedrigeren Kosten als Claude

AI Intelligence Newsletter