DeepSeek v4 Flash Thinking schlägt Gemini Flash beim wissenschaftlichen Reasoning deutlich
Discover AI hat einen reproduzierbaren Benchmark veröffentlicht, der DeepSeek v4 Flash Thinking mit Gemini 3.1 Flash Lite Preview auf einer mehrstufigen Constraint-Satisfaction-Aufgabe vergleicht. DeepSeek gewann alle drei Evaluierungsrunden: Im ersten Durchlauf erreichte es 10 und optimierte dann auf 8 Button-Presses, während Gemini von 14 auf 18 regredierte, als es aufgefordert wurde, seine eigene Lösung zu verifizieren. Auch mit Geminis Denkniveau auf „hoch" beim Modell außerhalb der Vorschau produzierte es eine ungültige Anfangslösung von 20 und optimierte nur auf 12. Eine zentrale Beobachtung: Gemini Flashs „Thinking Output" ist eine synthetische Post-hoc-Zusammenfassung, kein transparenter Reasoning-Chain — während DeepSeek den tatsächlichen Reasoning-Trace bereitstellt, der eine Verifikation durch den Nutzer ermöglicht.
Warum das relevant ist
Selbstverifizierungsregression — bei der das Auffordern eines Modells, seine Antwort zu prüfen, diese verschlechtert — ist ein bedeutsames Zuverlässigkeitssignal für wissenschaftliche und technische Aufgaben. Der offene Reasoning-Trace in DeepSeek v4 Flash bietet Auditierbarkeit, die geschlossene Modelle nicht leisten können — ein struktureller Vorteil für Hochrisikobereiche.