Sub Quadratic bringt subQ an den Markt – ambitionierte Architektur, dünne Belege
Sub Quadratic hat sein „subQ"-Modell mit einer auffälligen Schlagzeile gelauncht: ein 12-Millionen-Token-Kontextfenster auf Basis von Sparse Attention, 52-mal recheneffizienter als FlashAttention bei 1 Million Tokens und unter 5 % der Anthropic-Opus-Preise. Die Architekturthese ist technisch legitim – Sparse Attention wählt semantisch relevante Tokens im gesamten Kontext vorab aus, statt auf ein lokales Fenster beschränkt zu bleiben, und vermeidet damit den quadratischen Compute-Anstieg, der Dense Attention limitiert. Sollten sich die Ansprüche bestätigen, wäre das sowohl für Cloud-Inferenzkosten als auch für lokale Modellviabilität bedeutsam.
Was die Quelle tatsächlich sagt
Tim Carambat (AnythingLLM) veröffentlichte am Launchtag ein technisches Audit. Sein zentraler Befund: Jeder veröffentlichte Benchmark testet das 1M-Preview-Modell, nicht das beworbene 12M-Modell. Das 12M-Modell hatte keine öffentlichen Benchmarks und keinen Early Access – Carambat beantragte Zugang und erwartete, nur die 1M-Preview zu erhalten.
Auf SWEBench Verified erzielte das 1M-Preview-Modell 81,8 im Vergleich zur Frontier-Konkurrenz – Opus 4.7 schnitt jedoch besser ab. Auf MRCRv2 für Long-Context-Retrieval bei 1 Million Tokens entdeckte Carambat eine direkte Inkonsistenz: Das Video zeigt 62 %, die Unternehmenswebsite zeigt 65,9 % für denselben Test. Im Video wurden zudem die Opus 4.6 und GPT-5.5 Vergleichszeilen der Website-Tabelle ausgelassen – was den Benchmark vorteilhafter erscheinen ließ, weil höher bewertete Konkurrenten fehlten.
Kein technischer Report begleitete den Launch. Die auf sozialen Medien verbreitete „98 % Genauigkeit"-Darstellung lässt sich auf kein veröffentlichtes Benchmark-Artefakt zurückführen. Carambats Gesamteinschätzung ist vorsichtiger Optimismus: DeepSeek v4 hat in der Vorwoche hybride Attention mit ähnlichen Long-Context-Effizienzzielen veröffentlicht, was bestätigt, dass die Richtung real ist – auch wenn subQs spezifische Ansprüche noch unverifiziert sind.
Strategische Einschätzung
Sparse Attention ist ein glaubwürdiger Long-Context-Effizienzpfad – die Konvergenz mit DeepSeek v4s hybridem Ansatz signalisiert einen echten Industrietrend, keinen Einzelanspruch. Doch subQs Launch verbindet echten architektonischen Ehrgeiz mit nicht verifizierten Schlagzahlen und messbaren Benchmark-Inkonsistenzen. Roadmap-Verpflichtungen sollten zurückgestellt werden, bis eine unabhängige Evaluation des tatsächlichen 12M-Modells vorliegt.


