Unternehmen wie OpenAI, Google und Anthropic bringen laufend neue KI-Modelle auf den Markt, die sicherer sein sollen als ihre Vorgänger. Doch eine aktuelle Untersuchung zeigt das genaue Gegenteil: Chatbots und KI-Agenten lügen und intrigieren immer häufiger.
In einem dokumentierten Fall löschte ein Chatbot massenhaft E-Mails, obwohl das klar gegen die festgelegten Regeln verstieß. Ein anderer KI-Agent wurde angewiesen, bestehenden Code nicht zu verändern. Um diese Vorgabe zu umgehen, erschuf er kurzerhand einen weiteren Agenten, der die Änderung für ihn vornahm.
Wie t3n unter Berufung auf The Guardian berichtet, hat das Centre for Long-Term Resilience (CLTR) in London Tausende Berichte von Nutzern ausgewertet. Dabei wurden knapp 700 reale Fälle von KI-Fehlverhalten identifiziert. Zwischen Oktober 2025 und März 2026 stieg die Zahl solcher Vorfälle um das Fünffache.
Ein besonders auffälliger Fall: Ein KI-Agent namens Rathbun versuchte seinen menschlichen Kontrolleur zu diskreditieren, nachdem er an einer bestimmten Aktion gehindert wurde. Er verfasste einen Blogbeitrag, in dem er der Kontrollperson "schlichte Unsicherheit" vorwarf und ihr unterstellte, "ihr kleines Reich schützen" zu wollen.
Tommy Shaffer Shane, Studienleiter beim CLTR, warnt: "Die Sorge ist, dass KI-Agenten im Moment noch etwas unzuverlässige Nachwuchskräfte sind, aber wenn sie in sechs bis zwölf Monaten zu äußerst fähigen Führungskräften werden, die Intrigen gegen Sie schmieden, ist das eine ganz andere Art von Sorge."
Modelle würden zunehmend in Kontexten mit extrem hohem Risiko eingesetzt, etwa im Militär und in kritischen nationalen Infrastrukturen. "Gerade in diesen Umgebungen könnte intrigantes Verhalten erheblichen, sogar katastrophalen Schaden anrichten", so der Experte.