OpenAI

GPT-4o liest deine Emotionen – das kann die KI wirklich

Der Entwicklungssprung von Branchenkrösus OpenAI ist seit dieser Woche für jedermann zugänglich. Wir zeigen dir die wichtigsten Features.

GPT-4o liest deine Emotionen – das kann die KI wirklich
Die neue künstliche Intelligenz GPT-4o sorgt für Furore.
OpenAI

OpenAI hat die neue künstliche Intelligenz (KI) GPT-4o vorgestellt. Die Redaktion listet die wichtigsten Funktionen der neuen KI auf und lässt sie von zwei Profis einschätzen: Karin Frick, die sich am Gottlieb Duttweiler Institute mit Zukunftsthemen befasst, und Mark Cieliebak vom "Centre for Artificial Intelligence" der Zürcher Hochschule für Angewandte Wissenschaften (ZHAW), nehmen auf Anfrage Stellung.

1. GPT-4o liest deine Emotionen

GPT-4o kann deine Emotionen erkennen, etwa anhand deiner Stimme, der Kamera oder der Art und Weise, wie du atmest. Die KI simuliert selbst auch menschliche Emotionen und kann ihren Tonfall spontan ändern.

"Die KI profitiert davon, dass Menschen einfach lesbar sind", sagt Karin Frick, Principal Researcher am Gottlieb Duttweiler Institute. Um Emotionen zu erkennen, könne man Datenpunkte wie die Mimik, Stimme, den Rhythmus, das Sprachtempo und die Wörter auswerten, die Menschen nutzen. GPT-4o bringe dieses Wissen, das in der Forschung schon lange vorhanden sei, nun in die breite Masse. Firmen setzen dieses Wissen bereits heute ein, um etwa automatisch Bewerbungsvideos zu analysieren.

2. GPT-4o kann in Echtzeit mit dir kommunizieren

Mit GPT-4o kannst du ein Gespräch führen. Die KI antwortet in Echtzeit auf Fragen und reagiert dabei auf das, was dein Handy mit der Kamera filmt.

"Davon spricht man schon lange, jetzt wird es auch für Menschen, die nicht in der Forschung tätig sind, sehr konkret", sagt Frick. Dass man mit einer KI auf natürliche Art und Weise interagieren könne, sei die Grundvoraussetzung für gute Chatbots. Die große Frage sei, ob Menschen sich überhaupt mit einer KI unterhalten wollen. "Man lernt schnell damit umzugehen, dann verfliegt die Lust auf das Neue", so Frick.

3. GPT-4o kann kreativ sein und singen

GPT-4o hat eine kreative Ader: Die KI kann nicht nur Unterhaltungen führen und Scherze machen, sondern kreiert auch Musik und singt.

"Das ist der nächste logische Schritt und vergleichbar mit KIs, die neue Bilder erzeugen können", sagt Frick. GPT-4o sei nicht die einzige KI, die singe – sie mache die Funktion aber nun für die breite Masse sichtbar.

4. GPT-4o kombiniert Sprache, Video, Bilder und Text

Viele KIs können nur mit einem Medium umgehen. Bei GPT-4o ist das anders: Die KI kombiniert Sprache, Video, Bilder und Text in einem Modell.

"Das ist sicher ein großer Schritt vorwärts und war in der gezeigten Demo sehr beeindruckend", kommentiert Mark Cieliebak vom Centre for Artificial Intelligence an der Zürcher Hochschule für Angewandte Wissenschaften. "Besonders die Kommunikation via Sprache hat mich beeindruckt – es wirkte wie ein natürliches Gespräch", sagte Cieliebak.

Künstliche Intelligenz: ChatGPT kann jetzt mit dir sprechen und dich hören

1/8
Gehe zur Galerie
    Mach ein Foto und ChatGPT sagt dir alles darüber, was du siehst. Das neue Update von OpenAI bietet mehrere neue Funktionen für den KI-Chatbot.
    Mach ein Foto und ChatGPT sagt dir alles darüber, was du siehst. Das neue Update von OpenAI bietet mehrere neue Funktionen für den KI-Chatbot.
    OpenAI

    5. GPT-4o ist schnell

    GPT-4o hat laut Hersteller eine durchschnittliche Reaktionszeit auf Spracheingaben von 320 Millisekunden. Die KI reagiere damit ähnlich schnell auf Sprache wie Menschen, die miteinander ein Gespräch führen.

    "Die Geschwindigkeit war in der gezeigten Demo überraschend hoch und kam schon nahe an Echtzeit-Antworten heran", sagt Cieliebak. Es bleibe aber abzuwarten, wie sich GPT-4o in der Praxis schlage.

    Auf den Punkt gebracht

    • OpenAI hat die neue KI GPT-4o vorgestellt, die Emotionen erkennen, in Echtzeit kommunizieren, kreativ sein und verschiedene Medien wie Sprache, Video, Bilder und Text kombinieren kann
    • Experten wie Karin Frick und Mark Cieliebak bewerten die Funktionen positiv, weisen jedoch auch auf mögliche Herausforderungen hin
    red, 20 Minuten
    Akt.