"Zu riskant" – Facebook hält eigene KI unter Verschluss

Mit kurzen Audio-Proben kann die neue Facebook-KI Stimmen perfekt nachahmen. Aus ethischen Gründen wird sie noch unter Verschluss gehalten.

Von David Huemer und
20 Minuten

20.06.2023, 13:23

Sprechen wir Podcasts, Audionachrichten und Fremdsprachen bald nicht mehr selbst? Ein neues KI-Modell vom Facebook-Konzern Meta imitiert und generiert Stimmen in nahezu perfekter menschlicher Manier, inklusive Sprechpausen und Stilen. Voicebox wurde von KI-Forschenden bei Meta entwickelt und ist das erste große Modell, das sich auf die Spracherzeugung fokussiert.

Mehr lesen: Meta entwickelt "Menschen-ähnliches" KI-Modell

So funktioniert es

Ähnlich wie KI, die Texte oder Bilder generiert, sei das ChatGPT oder Midjourney, kann Voicebox ebenfalls mehrere Outputs erzeugen, basierend auf Text oder Audio. So kann das Modell in sechs Sprachen Stimmen synthetisieren. Gesprochene Inhalte können verändert, Rauschen oder Unterbrüche entfernt werden. Es ist sogar möglich, mit der eigenen Stimme perfekt gesprochene Sätze in anderen Sprachen zu generieren. Die KI wurde mit über 50.000 Stunden an gesprochenen Audio-Dateien trainiert.

Es sind nur zwei Sekunden an Sprach-Samples nötig, damit Voicebox die Stimme perfekt nachahmen kann. Meta will die App für verschiedene Anwendungsbereiche etablieren, dazu gehören:

– Spracherzeugung für Menschen, die durch Operationen, Krankheiten oder andere Ursachen ihre Stimme verloren haben.

– Sprachübersetzungen barrierefrei machen und den Menschen ermöglichen, mit der eigenen Stimme Fremdsprachen zu sprechen.

– Als Produktivitätswerkzeug kann Voicebox gesprochene Inhalte bearbeiten, Rauschen entfernen und Content für Firmen, Marketing, TV und mehr erstellen.

Mehr lesen: App macht aus deinen Selfies perfekte Bewerbungsfotos

Das sind die Bedenken

Die Entwickler und Entwicklerinnen betonen in der Mitteilung, dass sie sich den ethischen Folgen bewusst sind und die App für den Moment noch nicht veröffentlichen. "Voicebox kann zwar viele positive soziale Auswirkungen haben, birgt aber auch das Potenzial für Missbrauch und unbeabsichtigten Schaden", so die Autoren des Forschungsberichtes. Dazu gehören Deepfakes oder gefälschte Audioaufnahmen von fremden Personen.

Um dieses Problem anzugehen, haben die KI-Entwickler bei Meta das Modell so trainiert, dass es genau zwischen echter und synthetischer Sprache unterscheiden kann. Dabei wollen sie digitale, künstliche "Fingerabdrücke" in die Audio-Samples einbinden, die leicht erkannt werden können, ohne die Sprachqualität zu beeinträchtigen.

Die Bilder des Tages

Sobald die Sicherheit gewährleistet ist, will Meta mit Voicebox die ganze Sprache und Kommunikation in Zukunft revolutionieren und einen ähnlichen Impact erreichen wie bisher ChatGPT.

"Zu riskant" – Facebook hält eigene KI unter Verschluss

So funktioniert es

Das sind die Bedenken

Die Bilder des Tages

Weiterlesen