Schlagwort: Dubbing

  • ElevenLabs zeigt neue KI-Modelle und die Zukunft von Sprach-KI

    elevenlabs audio

    GPT-Images-2.0

    Kurzfassung

    Quellen

    ElevenLabs hat mit Eleven v4 ein neues Sprachmodell vorgestellt, das Emotionen während des Sprechens dynamisch anpasst.
    Das neue Dubbing v2 ermöglicht Videoübersetzungen, bei denen der emotionale Originalton in der Zielsprache erhalten bleibt.
    Autonome KI-Agenten der Plattform wickeln im Unternehmenseinsatz bereits täglich Millionen von komplexen Kundenanfragen ab.
    Mit einem speziellen Spendenprogramm klont das Unternehmen zudem kostenlos die Stimmen von Patienten mit dauerhaftem Stimmverlust.

    YouTube – ElevenLabs Summit & Product Demos
    YouTube – ElevenLabs Voice Cloning for MND Patients

    ElevenLabs hat auf dem Summit in Warschau neue KI-Modelle für Sprachsynthese und Synchronisation vorgestellt. Im Zentrum stehen das kommende Text-to-Speech-Modell Eleven v4 sowie Dubbing v2 für eine realitätsnahe Audioübersetzung. Zudem demonstrierte das Unternehmen erweiterte Funktionen für autonome KI-Agenten im Geschäftsumfeld. Emotionale Kontrolle und verbesserte Synchronisation Das neue KI-Modell Eleven v4 steht kurz vor der Veröffentlichung. Diese Variante bietet eine deutlich präzisere Kontrolle über die generierte Sprache. Die Software passt Emotionen nun dynamisch während eines einzigen Satzes an. Das System beherrscht komplexe stimmliche Nuancen wie ein natürliches Flüstern oder echte Gesangseinlagen. Die Entwickler versprechen einen erheblich reduzierten maschinellen Klang der generierten Stimmen. Gleichzeitig bringt das Unternehmen Dubbing v2 auf den Markt. Die neue Architektur nutzt das originale Audio als direkte Basis für die Synchronisation. So überträgt die KI den ursprünglichen Tonfall und die Emotionen passend in die Zielsprache. Bisher folgte erst eine Umwandlung in Text, und dann eine Übersetzung. Das hat natürlich zu deutlichen Verlusten bei den Emotionen geführt.

    Autonome Agenten übernehmen komplexe Prozesse Neben der reinen Sprachsynthese baut ElevenLabs seine Plattform für KI-Agenten aus. Aktuell verarbeiten rund fünf Millionen dieser Agenten tägliche Kundenanfragen in über 70 Sprachen. Die Systeme wickeln dabei täglich ein Gesprächsvolumen von umgerechnet zweieinhalb Jahren ab. Eine Demonstration zeigte einen autonomen Reiseagenten. Die KI griff im Hintergrund auf Datenbanken zu und bearbeitete parallele Buchungsprozesse. Nutzer authentifizieren sich für solche Abläufe direkt über Plattformen wie WhatsApp. Verschiedene Partner integrieren diese Technologie bereits in ihren Alltag. Der Telekommunikationsanbieter BT nutzt die Agenten für Übersetzungen in Echtzeit, während die Plattform Masterclass virtuelle Ausbilder testet. Gleichzeitig entwickelt die griechische Regierung KI-gestützte Reiseberater für den Tourismus, und die Fluggesellschaft Lot Airlines plant ein modernes Reservierungssystem. Anzeige Stimmklone für erkrankte Menschen ElevenLabs nutzt seine Technologie auch für einen medizinischen Anwendungsfall und stellt Menschen mit fortschreitendem Stimmverlust kostenlose Stimmklone zur Verfügung. Ziel dieses Programms ist die langfristige Unterstützung von einer Million betroffener Personen. Bisher erhielten mehr als 10.000 Menschen ihre digitale Stimme zurück. Der Prozess kopiert dabei nicht nur den reinen Klang. Auch individuelle Eigenheiten wie ein regionaler Akzent, ein Lachen oder ein leichtes Stottern bleiben erhalten. Ein Beispiel ist die ehemalige Lehrerin Irene Parin, die an der motorischen Nervenerkrankung MND leidet und ihre natürliche Sprache verlor. Durch den digitalen Stimmklon führt sie heute weiterhin ehrenamtlich Besuchergruppen durch die St. George’s Chapel in Windsor. Diese karitative Nutzung zeigt eine greifbare Ergänzung zum kommerziellen Einsatz der Sprachtechnologie.

  • ElevenLabs klont jetzt auch noch menschliche Emotionen

    Sprachen und Text

    GPT-Images-2.0

    Kurzfassung

    Quellen

    ElevenLabs hat das neue KI-Modell Dubbing v2 für automatische Videosynchronisation veröffentlicht.
    Die Software analysiert direkte Audiodaten und übernimmt Emotionen sowie das Sprechtempo direkt in die Zielsprache.
    Nutzer können ihre Inhalte nun authentisch in mehr als 90 verschiedenen Sprachen vertonen lassen.
    Die integrierte Timing-Logik sorgt für eine saubere Lippensynchronität ganz ohne manuelle Anpassungen.

    ElevenLabs Dubbing v2 Vorstellung
    ElevenLabs Dubbing Studio Funktionen
    ElevenProductions für professionelle Studios
    ElevenLabs Partner Kampagne
    ElevenLabs API und Sales Kontakt

    Das neue KI-Modell Dubbing v2 von ElevenLabs übersetzt gesprochene Inhalte in über 90 Sprachen und bewahrt dabei die ursprüngliche Emotion und Betonung. Das funktioniert, weil eine Sprache ohne Umwege direkt in eine andere umgewandelt wird. Der Umweg über Text entfällt. Emotionen bleiben beim Übersetzen erhalten Bisherige KI-Übersetzungen klangen oft mechanisch, da sie auf reinen Textübersetzungen basierten. ElevenLabs geht mit der neuen Version einen anderen Weg und wertet direkt die originale Tonspur aus. Dadurch erkennt das System die genaue Sprechweise der aufnehmenden Person. Tonfall, Sprechtempo und emotionale Nuancen fließen auf diese Weise nahtlos in die Zielsprache ein. Die Stimme der Person wird automatisch geklont, sodass der persönliche Charakter der Aufnahme bestehen bleibt. Manuelle Anpassungen an der Tonhöhe sind für diesen Prozess nicht nötig.

    Bessere Synchronität und mehr Sprachen Die Entwickler haben die Anzahl der unterstützten Sprachen deutlich erhöht. Anstelle der bisherigen 29 stehen Nutzern nun mehr als 90 verschiedene Dialekte und Sprachen zur Auswahl. Das aktualisierte KI-Modell achtet zudem streng auf das richtige Timing bei der Übersetzung. Die generierte Sprachausgabe richtet sich nach den natürlichen Pausen des Originals, wodurch Bild und Ton exakt synchronisiert bleiben. Die Software übersetzt darüber hinaus nicht wortwörtlich, sondern passt Phrasen direkt an den landestypischen Sprachgebrauch an. Lösungen für verschiedene Produktionsgrößen Die Technologie richtet sich an unterschiedliche Anwendergruppen. Für Marketingfachleute und private Videoproduzenten steht die Funktion innerhalb der Plattform ElevenCreative zur Verfügung. Dort reicht ein einfacher Upload der Mediendateien aus, um den Vorgang komplett abzuschließen. Große Filmstudios und Sendeanstalten erhalten mit ElevenProductions einen erweiterten Service. Hier übernehmen menschliche Fachleute die erste Übersetzung und die finale Tonmischung, während die künstliche Intelligenz ausschließlich für die Generierung der Audiospuren zuständig ist. Eine Schnittstelle für Entwickler befindet sich aktuell noch in der Vorbereitung. Zum Start gewährt das Unternehmen seinen Nutzern ein temporäres Kontingent an zusätzlichen Synchronisationsminuten. Diese Aktion läuft für sieben Tage und hängt von der gewählten Abonnementstufe ab. Interessenten erhalten so die Möglichkeit, die Technologie in eigenen Projekten zu testen. Danach gelten wieder die regulären Konditionen der entsprechenden Tarife. Anzeige