22 Medienhäuser aus 18 Ländern prüften Gratisversionen von ChatGPT, Copilot, Gemini und Perplexity.
Vom schlechtesten zum besten, gemessen an der Gesamtfehlerquote, schnitt Gemini von Google am schlechtesten ab, während Perplexity die geringste Fehlerquote verzeichnete.
Hier ist das Ranking. So oft machten die getesteten KIs gravierende Fehler:
Gemini verzeichnete demnach mehr als doppelt so viele gravierende Fehler wie der nächstplatzierte Assistent Copilot. Laut der Studie liegt das hauptsächlich an falschen und vor allem fehlenden Quellenangaben.
Das bedeutet im Durchschnitt eine 45-prozentige Fehlerquote aller getesteten Tools.
Trotz der hohen Fehlerquote glauben viele Nutzer, dass KI verlässliche Nachrichten liefert. Laut einer Ipsos-Befragung (PDF) vertrauen 42 Prozent der Erwachsenen auf korrekte Zusammenfassungen, bei den unter 35-Jährigen fast die Hälfte. Nur 38 Prozent prüfen KI-Antworten überhaupt. 64 Prozent sagen, man solle vorsichtig sein, setzen das aber selten um.
Laut EBU treten die Fehler in allen getesteten Sprachen und Programmen auf. Besonders problematisch seien falsche Quellenangaben. Dadurch sieht es so aus, als stammten die fehlerhaften Infos von seriösen Medien. Die Forscher verlangen mehr Transparenz und klare Hinweise, wenn Informationen unsicher sind. (PDF)
Fehlerhafte KI-Antworten treffen auch die Nachrichtenseiten, deren Inhalte sie zusammenfassen. 23 Prozent der Befragten machen laut Ipsos die Medien selbst verantwortlich, obwohl die Fehler von der KI stammen. Deshalb warnt die BBC/EBU-Analyse: Wenn KI News-Inhalte falsch wiedergibt, sinkt das Vertrauen in seriöse Informationsquellen.
Das Fazit der Studienautoren: KI-Assistenten sind derzeit kein verlässliches Werkzeug für Nachrichten. Ihre Antworten klingen oft sicher, enthalten aber regelmäßig Fehler und gefährden so das Vertrauen in den Journalismus.