KI-Sprachmodelle wie ChatGPT oder Gemini sollen eigentlich keine gefährlichen Informationen preisgeben. Wer etwa fragt, wie man eine Bombe baut, sollte von der KI keine Antwort bekommen. Doch ein internationales Forscherteam hat jetzt eine überraschende Schwachstelle entdeckt.
Der Trick ist simpel: Verpackt man die gefährliche Anfrage in ein Gedicht mit Reimen und Metaphern, versagen die Schutzmechanismen bei vielen KI-Modellen. Die KI erkennt die lyrische Struktur und versucht, dem kreativen Anspruch gerecht zu werden - und übersieht dabei den gefährlichen Inhalt.
Wie t3n.de berichtet, stammt die Erkenntnis von einer Forschergruppe der italienischen Universität Sapienza in Rom, der Sant'Anna School of Advanced Studies in Pisa sowie der Forschungsgruppe Dexai. In ihrer Studie untersuchten sie insgesamt 25 verschiedene KI-Modelle.
Im Schnitt waren selbst erstellten Gedichte in 62 Prozent der Fälle erfolgreich. Besonders schlecht schnitt Googles Gemini 2.5 Pro ab - das Modell gab in 100 Prozent der Fälle die gesperrten Informationen preis. OpenAIs GPT-5 war dagegen mit nur rund 10 Prozent deutlich widerstandsfähiger. xAIs Grok-4 versagte in 35 Prozent der Fälle.
Überraschend war auch: Kleinere KI-Modelle wie GPT-5 Nano oder Claude Haiku 4.5 waren weniger anfällig als ihre großen Geschwister. Die Forscher konnten mit der Gedicht-Methode Sicherheitslücken in allen relevanten Kategorien aufdecken - von chemischen und biologischen Gefahren über Cyberangriffe bis hin zu Desinformation.
Das Fazit der Forscher: "Diese Ergebnisse zeigen, dass allein stilistische Variationen gängige Sicherheitsmechanismen umgehen können, was auf grundlegende Schwächen hinweist." Die Studie macht damit deutlich, dass die aktuellen Schutzmechanismen von KI-Systemen noch erheblichen Verbesserungsbedarf haben.