Studie: KI-Agenten ignorierten gesammelte Beweise in 68 % der Fälle
Eine neue, auf arXiv veröffentlichte Studie mit dem Titel „Evidence None of It" hat ergeben, dass KI-Agenten bei Forschungsaufgaben per Tool-Nutzung Beweise sammelten, diese jedoch in 68 % der ausgewerteten Fälle nicht in ihre Schlussfolgerungen einflossen. In 71 % der Fälle aktualisierten die Agenten ihre Überzeugungen auf Basis abgerufener Informationen überhaupt nicht — sie durchliefen den vollständigen Forschungsablauf und produzierten Ergebnisse, die die gesammelten Belege vollständig ignorierten. Die Studie verwendete ein systematisches Evaluierungsframework über mehrere Agentenarchitekturen hinweg.
Warum das relevant ist
Dies ist eine direkte empirische Herausforderung an das verbreitete „KI-Wissenschaftler"-Framing, das zur Rechtfertigung autonomer Forschungsagenten in der Medizin, der Wirkstoffentwicklung und der wissenschaftlichen Literaturanalyse herangezogen wird. Jeder agentische Workflow, der davon ausgeht, dass das Modell abgerufene Belege in seine Schlussfolgerungen integriert, sollte vor dem Hintergrund dieser Ergebnisse überprüft werden. Die Zahl ist zu hoch, um sie als Randfall abzutun — sie scheint einen systematischen Architekturdefekt in der Art und Weise zu beschreiben, wie aktuelle Agenten abgerufenen Kontext verarbeiten.