Das britische AI Security Institute (AISI) hat untersucht, wie gut aktuelle KI-Modelle bei Cybersecurity-Aufgaben abschneiden. Das Ergebnis dürfte für Aufsehen sorgen.
In insgesamt 95 Tests im sogenannten Capture-the-Flag-Format wurden die Modelle auf Herz und Nieren geprüft. Dabei ging es um Bereiche wie Reverse Engineering, Web Security und Kryptografie.
Wie computerwoche.de berichtet, löste Claude Mythos von Anthropic in der Preview-Version 68,6 Prozent der schwierigsten Aufgaben. GPT-5.5 von OpenAI kam sogar auf 71,4 Prozent - laut den Experten liegt dieser Unterschied aber innerhalb der Fehlertoleranz.
GPT-5.5 war darüber hinaus auch bei fortgeschrittenen Aufgaben erfolgreich, die frühere Modelle nicht lösen konnten. Bei der Simulation eines Angriffs auf ein Unternehmensnetzwerk erreichte das OpenAI-Modell vergleichbare Ergebnisse wie Claude Mythos.
Die Experten des AISI betonen: Die Cybersicherheitsrisiken sind nicht auf ein einzelnes Modell beschränkt. Sie seien vielmehr eine Folge der allgemeinen Fortschritte im Bereich KI - insbesondere bei Reasoning, Coding und der Fähigkeit, umfassendere Aufgaben zu bewältigen.