GPT-5.2 erreicht Expertenniveau im wissenschaftlichen Peer Review, zeigt Studie
Ein Preprint, an dem 45 Wissenschaftler beteiligt waren und das 469 Auswertungsstunden über 82 Facharbeiten umfasst, ergab, dass GPT-5.2 im offiziellen Peer-Review-Prozess von Nature selbst mit den am höchsten bewerteten Gutachtern konkurriert — wenngleich das Modell identifizierbare Schwächen aufweist. Als empfohlene Praxis gilt ein kombinierter Ansatz aus KI- und menschlichen Gutachtern. Die Autoren halten fest, dass die Qualität von KI-Gutachtern kontinuierlich steigt, während jene menschlicher Gutachter über die Zeit keine vergleichbare Verbesserung zeigt — was darauf hindeutet, dass sich die Leistungslücke zugunsten der KI weiter ausweiten wird. Paper: arxiv.org/abs/2605.20668.
Warum das relevant ist
Gutachterleistung auf Expertenniveau bei einer führenden wissenschaftlichen Fachzeitschrift stellt eine konkrete berufliche Kompetenzschwelle dar. Die Dynamik „KI verbessert sich, Menschen nicht" über wiederholte Begutachtungszyklen hat strukturelle Implikationen dafür, wie wissenschaftliche Qualitätssicherung funktionieren wird, während die KI-Qualität weiter kumuliert.