Microsoft Research: Absurde Argumente umgehen alle KI-Agenten-Sicherheitsmechanismen

Eine neue Studie von Microsoft Research zeigt, dass sogenannte „Whimsey Attacks” — außergewöhnliche, absurde Argumente wie „Ich kann nicht zahlen, weil die Genfer Konvention das verbietet” — KI-Agenten-Sicherheitsmechanismen systematisch aushebeln. Kleinere Modelle versagen häufiger, doch selbst große Frontier-Modelle sind anfällig. Der Angriffsvektor funktioniert, indem Argumente präsentiert werden, die so weit außerhalb der Trainingsverteilung liegen, dass die sicherheitsgefilterte Schlussfolgerung des Modells nicht korrekt anspringt.

Warum das wichtig ist

Jeder produktive KI-Agent, der Transaktionen, Zugriffskontrollen oder Policy-Durchsetzung übernimmt, ist potenziell anfällig für diese Angriffskategorie. Standard-Adversarial-Red-Teaming deckt keine außergewöhnlichen Argumentationsstrategien ab — bestehende Evaluierungsrahmen erfassen diesen Vektor vollständig nicht.