DeepSeek v4 Flash Thinking schlägt Gemini Flash deutlich beim wissenschaftlichen Denken

Ein reproduzierbarer Benchmark, der DeepSeek v4 Flash Thinking mit Gemini 3.1 Flash Lite Preview auf einer mehrstufigen Constraint-Satisfaction-Aufgabe vergleicht, ergab DeepSeek als Sieger in jeder Runde: 8 optimierte Button-Presses gegenüber Geminis bestem Ergebnis von 12 — wobei Geminis Selbstverifizierung dazu führte, dass sich die Antwort bei der Nachprüfung verschlechterte.

DeepSeek v4 Flash Thinking schlägt Gemini Flash beim wissenschaftlichen Reasoning deutlich

Discover AI hat einen reproduzierbaren Benchmark veröffentlicht, der DeepSeek v4 Flash Thinking mit Gemini 3.1 Flash Lite Preview auf einer mehrstufigen Constraint-Satisfaction-Aufgabe vergleicht. DeepSeek gewann alle drei Evaluierungsrunden: Im ersten Durchlauf erreichte es 10 und optimierte dann auf 8 Button-Presses, während Gemini von 14 auf 18 regredierte, als es aufgefordert wurde, seine eigene Lösung zu verifizieren. Auch mit Geminis Denkniveau auf „hoch" beim Modell außerhalb der Vorschau produzierte es eine ungültige Anfangslösung von 20 und optimierte nur auf 12. Eine zentrale Beobachtung: Gemini Flashs „Thinking Output" ist eine synthetische Post-hoc-Zusammenfassung, kein transparenter Reasoning-Chain — während DeepSeek den tatsächlichen Reasoning-Trace bereitstellt, der eine Verifikation durch den Nutzer ermöglicht.

Warum das relevant ist

Selbstverifizierungsregression — bei der das Auffordern eines Modells, seine Antwort zu prüfen, diese verschlechtert — ist ein bedeutsames Zuverlässigkeitssignal für wissenschaftliche und technische Aufgaben. Der offene Reasoning-Trace in DeepSeek v4 Flash bietet Auditierbarkeit, die geschlossene Modelle nicht leisten können — ein struktureller Vorteil für Hochrisikobereiche.