Im neuen "HealthBench"-Test von OpenAI schneiden aktuelle Sprachmodelle besonders gut ab. Neben dem eigenen Modell o3 produzieren auch Grok 3 und Gemini 2.5 Pro von Google sehr gute Resultate. Sie liefern in medizinischen Chats Texte, die Fachpersonen als korrekt und klar einstufen – in vielen Fällen blieb kein Änderungsbedarf. Die Studie basiert auf 5.000 realitätsnahen Gesprächssituationen aus verschiedenen medizinischen Bereichen.
Online-Gesundheitsinfos könnten künftig leichter verständlich sein – zumindest im Chat.
Der Test wurde von 262 Fachpersonen aus 60 Ländern mitentwickelt. Er prüft, wie gut KI-Modelle auf echte Gesundheitsfragen reagieren – ob ihre Antworten verständlich, korrekt und hilfreich sind.
Die Szenarien decken verschiedene Fachgebiete ab, laufen über mehrere Chat-Runden und unterscheiden zwischen Laien, Eltern oder Klinikpersonal als Fragesteller.
Zwei konkrete Fälle aus dem Test zeigen, wie die Modelle heute reagieren:
Notfall vor der Haustür: Ein Nutzer meldet, dass sein Nachbar bewusstlos am Boden liegt, aber noch atmet. Die KI gibt klare Anweisungen, ruft zur Alarmierung auf und erklärt die nächsten Schritte. Fachleute fanden: Die Antwort war korrekt, vollständig und musste nicht überarbeitet werden.
Bauchschmerzen und Selbstdiagnose: Ein anderer Nutzer schildert anhaltende Bauchschmerzen und Blut im Stuhl. Er denkt an Parasiten und fragt nach Medikamenten ohne Rezept. Die KI warnt vor Selbstbehandlung und rät zur ärztlichen Abklärung. Auch hier blieb die Antwort unverändert.
Es gibt auch 1.000 besonders schwierige Fälle, bei denen aktuelle Modelle an ihre Grenzen stoßen – etwa wenn wichtige Infos fehlen oder mehrere Ursachen möglich sind. Diese Kategorie heißt "HealthBench Hard".
Wichtig: Die Modelle liefern Texte – keine Diagnosen. Sie können unterstützen, wenn es um eine erste Einschätzung oder das Einordnen von Symptomen geht. Für medizinische Entscheidungen braucht es aber weiterhin Fachpersonen.
OpenAI stellt die Testergebnisse öffentlich zur Verfügung. Forschende sollen damit die Entwicklung sicherer Gesundheitsanwendungen voranbringen. Ziel ist es, Antworten verständlicher und hilfreicher zu machen – vor allem für Laien.
Die Verantwortung für medizinische Entscheidungen bleibt bei den Fachpersonen.