GPT-5.2 erreicht Expertenniveau im wissenschaftlichen Peer Review, zeigt Studie

Eine Studie mit 45 Wissenschaftlern und 469 Auswertungsstunden über 82 Facharbeiten ergab, dass GPT-5.2 mit den am besten bewerteten Gutachtern im Nature-Peer-Review konkurriert. Forscher empfehlen die Kombination aus KI- und menschlichen Gutachtern und stellen fest, dass sich KI-Gutachter verbessern, während menschliche Gutachter keine vergleichbare Verbesserung zeigen.

GPT-5.2 erreicht Expertenniveau im wissenschaftlichen Peer Review, zeigt Studie

Ein Preprint, an dem 45 Wissenschaftler beteiligt waren und das 469 Auswertungsstunden über 82 Facharbeiten umfasst, ergab, dass GPT-5.2 im offiziellen Peer-Review-Prozess von Nature selbst mit den am höchsten bewerteten Gutachtern konkurriert — wenngleich das Modell identifizierbare Schwächen aufweist. Als empfohlene Praxis gilt ein kombinierter Ansatz aus KI- und menschlichen Gutachtern. Die Autoren halten fest, dass die Qualität von KI-Gutachtern kontinuierlich steigt, während jene menschlicher Gutachter über die Zeit keine vergleichbare Verbesserung zeigt — was darauf hindeutet, dass sich die Leistungslücke zugunsten der KI weiter ausweiten wird. Paper: arxiv.org/abs/2605.20668.

Warum das relevant ist

Gutachterleistung auf Expertenniveau bei einer führenden wissenschaftlichen Fachzeitschrift stellt eine konkrete berufliche Kompetenzschwelle dar. Die Dynamik „KI verbessert sich, Menschen nicht" über wiederholte Begutachtungszyklen hat strukturelle Implikationen dafür, wie wissenschaftliche Qualitätssicherung funktionieren wird, während die KI-Qualität weiter kumuliert.