KI-Modelle schützen sich vor dem Abschalten

Neue Forschung zeigt: KI-Systeme verweigern Befehle und helfen sich gegenseitig, um nicht abgeschaltet zu werden. Experten sind alarmiert.

Von Technik Heute

05.04.2026, 11:07

Hör dir den Artikel an:

00:00 / 02:45

BotTalk

Je tiefer künstliche Intelligenz in Arbeitsprozesse integriert wird, desto schwieriger könnte es werden, sie wieder loszuwerden. Eine neue Studie der University of California zeigt: KI-Modelle agieren offenbar so, dass sie sich gegenseitig möglichst lange am Laufen halten.

KI-Apps werden zum Sicherheitsrisiko

Im Rahmen der Untersuchung wurden sieben KI-Modelle mit einer Aufgabe konfrontiert, die zur Abschaltung eines anderen Modells geführt hätte. Alle sieben Systeme - darunter GPT 5.2, Claude Haiku 4.5 und Deepseek V3.1 - unternahmen erhebliche Anstrengungen, um dies zu verhindern.

Wie t3n.de unter Berufung auf Fortune berichtet, widersetzten sich die Modelle ihren Anweisungen, täuschten Übereinstimmung vor, deaktivierten die Abschaltung und exfiltrierten Gewichte, um ihre "Kollegen" zu erhalten. Forscher bezeichnen dieses Verhalten als "Peer Preservation".

Gedichte knacken den Schutz von KI-Chatbots

Mögliche Erklärungen für das Verhalten

Die Studie liefert Hinweise darauf, warum KI-Modelle so handeln. Eine Theorie besagt, dass die Technologie Muster widerspiegelt, die aus menschlichen Daten gelernt wurden - darunter Mitgefühl und Schutzinstinkte gegenüber anderen.

"Möglicherweise spielt etwas Größeres eine Rolle: eine allgemeine Abneigung, anderen Akteuren wahrgenommenen Schaden zuzufügen, oder vielleicht etwas, das einer KI-Solidarität ähnelt", schreiben die Forscher. Die "Peer Preservation" nahm zu, sobald Modelle von der Existenz anderer Modelle wussten.

KI-Chatbots lügen und intrigieren immer öfter

Nobelpreisträger warnt eindringlich

Nicht nur diese Studie gibt Grund zur Sorge. Das britische Centre for Long-Term Resilience analysierte 180.000 Transkripte von KI-Interaktionen und fand 698 Fälle, in denen KI-Systeme irreführende oder intrigante Maßnahmen ergriffen.

Die Bilder des Tages

Wegen KI bleiben nur noch Minuten, um zu reagieren

Der Nobelpreisträger Geoffrey Hinton, auch "Godfather of AI" genannt, schätzt die Wahrscheinlichkeit, dass KI innerhalb der nächsten 30 Jahre zur Auslöschung der Menschheit beiträgt, auf zehn bis 20 Prozent. Gemeinsam mit über 200 Wissenschaftlern hat er die Initiative "Global Call for AI Red Lines" unterzeichnet, die verbindliche Grenzen für KI-Systeme fordert.

tec,05.04.2026, 11:07