Studie: KI-Agenten ignorierten gesammelte Beweise in 68% der Fälle

Eine neue arXiv-Studie ('Evidence None of It') zeigt, dass KI-Agenten in 68 % der ausgewerteten Fälle Beweise sammelten und diese anschließend ignorierten; in 71 % der Fälle aktualisierten sie ihre Überzeugungen auf Basis abgerufener Informationen überhaupt nicht — eine direkte empirische Herausforderung für Ansprüche autonomer 'KI-Wissenschaftler' und agentischer Forschungs-Workflows.

Studie: KI-Agenten ignorierten gesammelte Beweise in 68 % der Fälle

Eine neue, auf arXiv veröffentlichte Studie mit dem Titel „Evidence None of It" hat ergeben, dass KI-Agenten bei Forschungsaufgaben per Tool-Nutzung Beweise sammelten, diese jedoch in 68 % der ausgewerteten Fälle nicht in ihre Schlussfolgerungen einflossen. In 71 % der Fälle aktualisierten die Agenten ihre Überzeugungen auf Basis abgerufener Informationen überhaupt nicht — sie durchliefen den vollständigen Forschungsablauf und produzierten Ergebnisse, die die gesammelten Belege vollständig ignorierten. Die Studie verwendete ein systematisches Evaluierungsframework über mehrere Agentenarchitekturen hinweg.

Warum das relevant ist

Dies ist eine direkte empirische Herausforderung an das verbreitete „KI-Wissenschaftler"-Framing, das zur Rechtfertigung autonomer Forschungsagenten in der Medizin, der Wirkstoffentwicklung und der wissenschaftlichen Literaturanalyse herangezogen wird. Jeder agentische Workflow, der davon ausgeht, dass das Modell abgerufene Belege in seine Schlussfolgerungen integriert, sollte vor dem Hintergrund dieser Ergebnisse überprüft werden. Die Zahl ist zu hoch, um sie als Randfall abzutun — sie scheint einen systematischen Architekturdefekt in der Art und Weise zu beschreiben, wie aktuelle Agenten abgerufenen Kontext verarbeiten.

Studie: KI-Agenten ignorierten gesammelte Beweise in 68% der Fälle

Studie: KI-Agenten ignorierten gesammelte Beweise in 68 % der Fälle

Warum das relevant ist

Live News Feed