Studie: KI-Chatbot-Ratschläge werden befolgt, verbessern aber das Wohlbefinden nicht nachhaltig

Eine Peer-reviewte Studie ergab, dass Teilnehmer an 20-minütigen KI-Chatbot-Gesprächen zu Gesundheits-, Karriere- und Beziehungsthemen die erteilten Ratschläge größtenteils befolgten, jedoch 2–3 Wochen später keine nachhaltige Verbesserung des Wohlbefindens zeigten. Weder GPT-4o noch Llama 3.3-80B verursachten signifikante Schäden.

Studie: KI-Chatbot-Ratschläge werden befolgt, bringen aber keine nachhaltige Verbesserung des Wohlbefindens

Eine Peer-reviewte Studie (arXiv:2511.15352) mit 20-minütigen KI-Chatbot-Gesprächen zu Gesundheits-, Karriere- und Beziehungsthemen ergab, dass die Mehrheit der Teilnehmer die KI-Ratschläge befolgte — 2–3 Wochen später jedoch keine nachhaltige Verbesserung des Wohlbefindens zeigte. Entscheidend ist, dass weder GPT-4o noch Llama 3.3-80B signifikante Schäden verursachten und damit empirisch belegt ist, dass diese Modelle die Schadensfreiheitsschwelle für Beratungsanwendungen erfüllen. Forscher Jay Van Bavel und seine Co-Autoren betonen, dass der Befund der Schadensfreiheit ebenso bedeutsam ist wie der ausbleibende Nutzennachweis.

Warum das relevant ist

Die Studie liefert eine empirische Grundlage für den unternehmensweiten Einsatz von KI-Beratungssystemen: Die Einführung kann ohne Schaden für das Wohlbefinden erfolgen, doch sollten Nutzenversprechen in regulierten Bereichen wie Gesundheitswesen, HR und Finanzberatung nicht übertrieben werden — wo das „Befolgen von KI-Empfehlungen" bereits zur Haftungsfläche wird.