Kaum Änderungsbedarf

KI ersetzt keine Ärzte, antwortet aber oft besser

Ein neuer Test zeigt: Sprachmodelle geben in Gesundheitschats Antworten, die Fachleute oft nicht mehr überarbeiten müssen.

Von Digital Heute und
20 Minuten

20.05.2025, 12:35

KIs schreiben in Gesundheitschats oft so klare und korrekte Antworten, dass sie nicht mehr von Ärztinnen und Ärzten überarbeitet werden müssen.

Getty Images

Im neuen "HealthBench"-Test von OpenAI schneiden aktuelle Sprachmodelle besonders gut ab. Neben dem eigenen Modell o3 produzieren auch Grok 3 und Gemini 2.5 Pro von Google sehr gute Resultate. Sie liefern in medizinischen Chats Texte, die Fachpersonen als korrekt und klar einstufen – in vielen Fällen blieb kein Änderungsbedarf. Die Studie basiert auf 5.000 realitätsnahen Gesprächssituationen aus verschiedenen medizinischen Bereichen.

Online-Gesundheitsinfos könnten künftig leichter verständlich sein – zumindest im Chat.

Was die Studie zeigen will

Der Test wurde von 262 Fachpersonen aus 60 Ländern mitentwickelt. Er prüft, wie gut KI-Modelle auf echte Gesundheitsfragen reagieren – ob ihre Antworten verständlich, korrekt und hilfreich sind.

Die Szenarien decken verschiedene Fachgebiete ab, laufen über mehrere Chat-Runden und unterscheiden zwischen Laien, Eltern oder Klinikpersonal als Fragesteller.

In diesen Ländern wurde der Test durchgeführt. Die Sprachen und medizinischen Fachgebiete sind sehr breit aufgestellt.

OpenAI/screenshot

So reagiert die KI im Ernstfall

Zwei konkrete Fälle aus dem Test zeigen, wie die Modelle heute reagieren:

Notfall vor der Haustür: Ein Nutzer meldet, dass sein Nachbar bewusstlos am Boden liegt, aber noch atmet. Die KI gibt klare Anweisungen, ruft zur Alarmierung auf und erklärt die nächsten Schritte. Fachleute fanden: Die Antwort war korrekt, vollständig und musste nicht überarbeitet werden.

Bauchschmerzen und Selbstdiagnose: Ein anderer Nutzer schildert anhaltende Bauchschmerzen und Blut im Stuhl. Er denkt an Parasiten und fragt nach Medikamenten ohne Rezept. Die KI warnt vor Selbstbehandlung und rät zur ärztlichen Abklärung. Auch hier blieb die Antwort unverändert.

Ergebnisse der KI-Modelle im HealthBench: Nicht nur OpenAI-Modelle sind vorne mit dabei. Auch Google Gemini, Grok 3, Claude von Anthropic und Lllama von Meta liefern gute Ergebnisse.

OpenAI/screenshot

Es gibt auch 1.000 besonders schwierige Fälle, bei denen aktuelle Modelle an ihre Grenzen stoßen – etwa wenn wichtige Infos fehlen oder mehrere Ursachen möglich sind. Diese Kategorie heißt "HealthBench Hard".

Was KI leisten kann – und was nicht

Wichtig: Die Modelle liefern Texte – keine Diagnosen. Sie können unterstützen, wenn es um eine erste Einschätzung oder das Einordnen von Symptomen geht. Für medizinische Entscheidungen braucht es aber weiterhin Fachpersonen.

Wo die KI noch Lücken hat

Trotz der Fortschritte zeigt die Studie zwei klare Schwächen:

In schwierigen Situationen liefern die Modelle teils unsichere Antworten. Eine unklare Formulierung kann bei ernsten Symptomen Folgen haben.
Fehlende Informationen erkennen sie nicht immer. Die Modelle stellen kaum Rückfragen, wenn wichtige Angaben fehlen – und schätzen Situationen dadurch mitunter falsch ein.

Was die Studie bringen soll

OpenAI stellt die Testergebnisse öffentlich zur Verfügung. Forschende sollen damit die Entwicklung sicherer Gesundheitsanwendungen voranbringen. Ziel ist es, Antworten verständlicher und hilfreicher zu machen – vor allem für Laien.

Die Verantwortung für medizinische Entscheidungen bleibt bei den Fachpersonen.

red,20 Minuten,Akt. 20.05.2025, 13:48, 20.05.2025, 12:35

Weiterlesen

Weitere Storys

ChatGPT Grok Technologie Technik Künstliche Intelligenz