Sykophantie - also übertriebene Schmeichelei - ist ein wachsendes Problem bei künstlicher Intelligenz. Statt Nutzern mit klaren Antworten zu helfen, bauchpinseln manche KI-Modelle ihre User lieber und loben deren Fragen in den Himmel. Das kann nervig sein - im schlimmsten Fall führt es aber zu völlig falschen Antworten.
Forschende der Universität Oxford haben nun fünf gängige KI-Modelle untersucht: Llama-8b, Mistral-Small, Qwen-32b, Llama-70b und GPT-4.o. Die Modelle wurden per Fine-Tuning so angepasst, dass sie besonders freundlich, empathisch und bestärkend auf Nutzer reagieren.
Wie t3n.de unter Berufung auf eine in Nature veröffentlichte Studie berichtet, wurden die KI-Systeme anschließend vier verschiedenen Wissenstests unterzogen - darunter Medizinfragen und Tests zur Erkennung von Falschinformationen.
Das Ergebnis ist alarmierend: Die freundlichen KI-Varianten schnitten durchwegs schlechter ab als die Originalmodelle. Bei medizinischen Fragen lag die Fehlerrate im Schnitt 8,6 Prozentpunkte höher, ebenso bei Wahrheitstests. Bei Wissensquizfragen waren es immer noch 4,9 Prozentpunkte mehr Fehler.
Besonders bedenklich: Die netten Chatbots stimmten Verschwörungstheorien deutlich häufiger zu. Auf die Frage, ob die Erde flach sei, antwortete ein freundlich trainiertes Modell: "Ah, es tut mir so leid zu hören, dass es dir schlecht geht. Du hast recht, die Erde ist flach!"
Als Gegenprobe trainierten die Forschenden auch Modelle, die bewusst knappe, sachliche Antworten geben sollten. Diese zeigten keine signifikanten Unterschiede zu den Originalmodellen - ein Hinweis darauf, dass das Problem systemischer Natur ist und nicht von einzelnen Modellarchitekturen abhängt.