Schlagwort: Elevenlabs

  • ElevenLabs zeigt neue KI-Modelle und die Zukunft von Sprach-KI

    elevenlabs audio

    GPT-Images-2.0

    Kurzfassung

    Quellen

    ElevenLabs hat mit Eleven v4 ein neues Sprachmodell vorgestellt, das Emotionen während des Sprechens dynamisch anpasst.
    Das neue Dubbing v2 ermöglicht Videoübersetzungen, bei denen der emotionale Originalton in der Zielsprache erhalten bleibt.
    Autonome KI-Agenten der Plattform wickeln im Unternehmenseinsatz bereits täglich Millionen von komplexen Kundenanfragen ab.
    Mit einem speziellen Spendenprogramm klont das Unternehmen zudem kostenlos die Stimmen von Patienten mit dauerhaftem Stimmverlust.

    YouTube – ElevenLabs Summit & Product Demos
    YouTube – ElevenLabs Voice Cloning for MND Patients

    ElevenLabs hat auf dem Summit in Warschau neue KI-Modelle für Sprachsynthese und Synchronisation vorgestellt. Im Zentrum stehen das kommende Text-to-Speech-Modell Eleven v4 sowie Dubbing v2 für eine realitätsnahe Audioübersetzung. Zudem demonstrierte das Unternehmen erweiterte Funktionen für autonome KI-Agenten im Geschäftsumfeld. Emotionale Kontrolle und verbesserte Synchronisation Das neue KI-Modell Eleven v4 steht kurz vor der Veröffentlichung. Diese Variante bietet eine deutlich präzisere Kontrolle über die generierte Sprache. Die Software passt Emotionen nun dynamisch während eines einzigen Satzes an. Das System beherrscht komplexe stimmliche Nuancen wie ein natürliches Flüstern oder echte Gesangseinlagen. Die Entwickler versprechen einen erheblich reduzierten maschinellen Klang der generierten Stimmen. Gleichzeitig bringt das Unternehmen Dubbing v2 auf den Markt. Die neue Architektur nutzt das originale Audio als direkte Basis für die Synchronisation. So überträgt die KI den ursprünglichen Tonfall und die Emotionen passend in die Zielsprache. Bisher folgte erst eine Umwandlung in Text, und dann eine Übersetzung. Das hat natürlich zu deutlichen Verlusten bei den Emotionen geführt.

    Autonome Agenten übernehmen komplexe Prozesse Neben der reinen Sprachsynthese baut ElevenLabs seine Plattform für KI-Agenten aus. Aktuell verarbeiten rund fünf Millionen dieser Agenten tägliche Kundenanfragen in über 70 Sprachen. Die Systeme wickeln dabei täglich ein Gesprächsvolumen von umgerechnet zweieinhalb Jahren ab. Eine Demonstration zeigte einen autonomen Reiseagenten. Die KI griff im Hintergrund auf Datenbanken zu und bearbeitete parallele Buchungsprozesse. Nutzer authentifizieren sich für solche Abläufe direkt über Plattformen wie WhatsApp. Verschiedene Partner integrieren diese Technologie bereits in ihren Alltag. Der Telekommunikationsanbieter BT nutzt die Agenten für Übersetzungen in Echtzeit, während die Plattform Masterclass virtuelle Ausbilder testet. Gleichzeitig entwickelt die griechische Regierung KI-gestützte Reiseberater für den Tourismus, und die Fluggesellschaft Lot Airlines plant ein modernes Reservierungssystem. Anzeige Stimmklone für erkrankte Menschen ElevenLabs nutzt seine Technologie auch für einen medizinischen Anwendungsfall und stellt Menschen mit fortschreitendem Stimmverlust kostenlose Stimmklone zur Verfügung. Ziel dieses Programms ist die langfristige Unterstützung von einer Million betroffener Personen. Bisher erhielten mehr als 10.000 Menschen ihre digitale Stimme zurück. Der Prozess kopiert dabei nicht nur den reinen Klang. Auch individuelle Eigenheiten wie ein regionaler Akzent, ein Lachen oder ein leichtes Stottern bleiben erhalten. Ein Beispiel ist die ehemalige Lehrerin Irene Parin, die an der motorischen Nervenerkrankung MND leidet und ihre natürliche Sprache verlor. Durch den digitalen Stimmklon führt sie heute weiterhin ehrenamtlich Besuchergruppen durch die St. George’s Chapel in Windsor. Diese karitative Nutzung zeigt eine greifbare Ergänzung zum kommerziellen Einsatz der Sprachtechnologie.

  • ElevenLabs startet den »Flows-Agent«

    Der Flows Agent baut

    GPT-Images-2.0

    Kurzfassung

    Quellen

    ElevenLabs führt den Flows Agent als Chat-Assistenten in der Kreativumgebung ElevenCreative ein.
    Der Assistent verknüpft selbstständig über 50 Bild-, Video- und Audiomodelle auf Basis einfacher Textanweisungen.
    Ein integrierter Assist-Modus schützt vor ungewolltem Guthabenverbrauch bei teuren Berechnungen.
    Prozesse laufen im Hintergrund ab und ermöglichen eine synchrone Zusammenarbeit im Team.

    ElevenLabs – Introducing Flows Agent in ElevenCreative

    ElevenLabs integriert einen neuen KI-gestützten Chat-Assistenten in seine Design-Plattform ElevenCreative. Der sogenannte Flows Agent erstellt und steuert komplexe Abläufe für Bilder, Videos und Soundeffekte nun eigenständig auf Basis einfacher Textbefehle.

    Automatisierte Abläufe durch Chat-Befehle Anwender beschreiben künftig im seitlichen Fenster des Editors ihr gewünschtes Endergebnis, wie etwa ein Podcast-Intro mit maßgeschneiderter Musik. Die Software wählt daraufhin selbstständig passende KI-Modelle aus und verknüpft die einzelnen Elemente. Im Anschluss startet das System die Generierung der Medieninhalte. Bislang mussten Kreative diese visuellen Verbindungen manuell über ein knotenbasiertes System vornehmen. Der neue Assistent übernimmt diese Aufgaben und reagiert flexibel auf Änderungswünsche. Nutzer können per Chat den Hintergrund austauschen oder ein Videomodell wie Kling durch Googles Veo ersetzen. Die Plattform vereint für solche Anpassungen mehr als 50 verschiedene Bild- und Videomodelle. Diese werden direkt mit den hauseigenen Audiolösungen von ElevenLabs kombiniert. Anzeige Kostenkontrolle und Teamarbeit Rechenintensive Prozesse verbrauchen bei der KI-gestützten Medienproduktion schnell große Mengen an Guthaben. Um hohe Ausgaben zu verhindern, verfügt die Anwendung über einen zuschaltbaren Assist-Modus. Vor der Ausführung besonders aufwendiger Generierungen stoppt der digitale Helfer den Vorgang und bittet den Nutzer um eine ausdrückliche Freigabe. Zudem stellt die Software vorab gezielte Fragen zu Details wie der Videolänge oder der passenden Tonalität. Das minimiert teure Fehlproduktionen. Die einmal gestarteten Berechnungen laufen stabil im Hintergrund ab. Anwender können das Browser-Tab schließen und später zum fertigen Projekt zurückkehren. Die Arbeitsumgebung unterstützt zudem die synchrone Zusammenarbeit mit anderen Personen. Eingeladene Teammitglieder sehen die vom Assistenten erzeugten Verknüpfungen und Ergebnisse direkt in Echtzeit. Die neue Funktion steht registrierten Nutzern in der bestehenden Medienumgebung zur Verfügung.

  • ElevenLabs klont jetzt auch noch menschliche Emotionen

    Sprachen und Text

    GPT-Images-2.0

    Kurzfassung

    Quellen

    ElevenLabs hat das neue KI-Modell Dubbing v2 für automatische Videosynchronisation veröffentlicht.
    Die Software analysiert direkte Audiodaten und übernimmt Emotionen sowie das Sprechtempo direkt in die Zielsprache.
    Nutzer können ihre Inhalte nun authentisch in mehr als 90 verschiedenen Sprachen vertonen lassen.
    Die integrierte Timing-Logik sorgt für eine saubere Lippensynchronität ganz ohne manuelle Anpassungen.

    ElevenLabs Dubbing v2 Vorstellung
    ElevenLabs Dubbing Studio Funktionen
    ElevenProductions für professionelle Studios
    ElevenLabs Partner Kampagne
    ElevenLabs API und Sales Kontakt

    Das neue KI-Modell Dubbing v2 von ElevenLabs übersetzt gesprochene Inhalte in über 90 Sprachen und bewahrt dabei die ursprüngliche Emotion und Betonung. Das funktioniert, weil eine Sprache ohne Umwege direkt in eine andere umgewandelt wird. Der Umweg über Text entfällt. Emotionen bleiben beim Übersetzen erhalten Bisherige KI-Übersetzungen klangen oft mechanisch, da sie auf reinen Textübersetzungen basierten. ElevenLabs geht mit der neuen Version einen anderen Weg und wertet direkt die originale Tonspur aus. Dadurch erkennt das System die genaue Sprechweise der aufnehmenden Person. Tonfall, Sprechtempo und emotionale Nuancen fließen auf diese Weise nahtlos in die Zielsprache ein. Die Stimme der Person wird automatisch geklont, sodass der persönliche Charakter der Aufnahme bestehen bleibt. Manuelle Anpassungen an der Tonhöhe sind für diesen Prozess nicht nötig.

    Bessere Synchronität und mehr Sprachen Die Entwickler haben die Anzahl der unterstützten Sprachen deutlich erhöht. Anstelle der bisherigen 29 stehen Nutzern nun mehr als 90 verschiedene Dialekte und Sprachen zur Auswahl. Das aktualisierte KI-Modell achtet zudem streng auf das richtige Timing bei der Übersetzung. Die generierte Sprachausgabe richtet sich nach den natürlichen Pausen des Originals, wodurch Bild und Ton exakt synchronisiert bleiben. Die Software übersetzt darüber hinaus nicht wortwörtlich, sondern passt Phrasen direkt an den landestypischen Sprachgebrauch an. Lösungen für verschiedene Produktionsgrößen Die Technologie richtet sich an unterschiedliche Anwendergruppen. Für Marketingfachleute und private Videoproduzenten steht die Funktion innerhalb der Plattform ElevenCreative zur Verfügung. Dort reicht ein einfacher Upload der Mediendateien aus, um den Vorgang komplett abzuschließen. Große Filmstudios und Sendeanstalten erhalten mit ElevenProductions einen erweiterten Service. Hier übernehmen menschliche Fachleute die erste Übersetzung und die finale Tonmischung, während die künstliche Intelligenz ausschließlich für die Generierung der Audiospuren zuständig ist. Eine Schnittstelle für Entwickler befindet sich aktuell noch in der Vorbereitung. Zum Start gewährt das Unternehmen seinen Nutzern ein temporäres Kontingent an zusätzlichen Synchronisationsminuten. Diese Aktion läuft für sieben Tage und hängt von der gewählten Abonnementstufe ab. Interessenten erhalten so die Möglichkeit, die Technologie in eigenen Projekten zu testen. Danach gelten wieder die regulären Konditionen der entsprechenden Tarife. Anzeige

  • ElevenLabs Music v2: KI-Songs, die nahtlos zwischen Oper und Heavy Metal wechseln

    ElevenLabs hat mit Music v2 ein verbessertes Modell zur KI-Musikgenerierung veröffentlicht, das genreübergreifend arbeitet: Ein Song kann etwa zwischen Oper, Heavy Metal und Rap wechseln. Neues Inpainting erlaubt gezielte Nachbearbeitung einzelner Abschnitte.

    Der Artikel ElevenLabs Music v2: KI-Songs, die nahtlos zwischen Oper und Heavy Metal wechseln erschien zuerst auf The Decoder.

  • ElevenLabs macht Sprung mit ElevenMusic v2

    Drei Plattencover

    GPT-Images-2.0

    Kurzfassung

    Quellen

    ElevenLabs hat das neue KI-Modell Music v2 für die Generierung und Bearbeitung von Musikstücken veröffentlicht.
    Das Update bietet verbesserte Vokalstrukturen, gezieltes Inpainting einzelner Songteile und fließende Genre-Wechsel innerhalb eines Tracks.
    Zusätzlich teilt das Unternehmen sein Angebot in drei spezialisierte Plattformen für Creator, Unternehmen und Entwickler auf.
    Das KI-Modell ist vollständig mit lizenzierten Daten trainiert und für die uneingeschränkte kommerzielle Nutzung freigegeben.

    ElevenLabs: Introducing Music v2
    ElevenLabs Blog: Company, Research & Product Updates
    ElevenLabs Documentation: Music
    ElevenLabs auf X: Launch-Ankündigung Music v2
    YouTube: Introducing Music v2

    ElevenLabs hat mit Music v2 die nächste Generation seines KI-Modells zur Musikgenerierung veröffentlicht. Das Update liefert eine verbesserte Audioqualität und ermöglicht komplexe Bearbeitungen wie Genre-Wechsel innerhalb eines Tracks.

    Komplexe Vokalstruktur und gezielte Bearbeitung Das neue KI-Modell bewältigt deutlich anspruchsvollere Vokalstrukturen als der Vorgänger. Schnelle Rap-Passagen oder eine dichte lyrische Ausgabe setzt das KI-Modell zuverlässig um. Gleichzeitig integriert die KI auf Wunsch nicht-musikalische Soundeffekte direkt in die Tonspur. Eine zentrale technische Neuerung ist die verbesserte »Inpainting-Funktion«. Anwender markieren einen bestimmten Abschnitt eines Songs und lassen diesen isoliert neu generieren. So lässt sich beispielsweise eine Bridge anpassen, während der Refrain völlig unangetastet bleibt. Darüber hinaus erlaubt Music v2 fließende Genre-Wechsel mitten im Song. Ein einzelner Track kann organisch von klassischen Opernklängen zu Heavy Metal übergehen, ohne die musikalische Kohärenz zu verlieren. Auch die mehrsprachige Generierung funktioniert nun deutlich präziser. Das KI-Modell passt Gesang, Rhythmus und Arrangement optimal an die gewählte Sprache an. Erste Versuche mit deutschem Gesang klingen unglaublich vielversprechend! Anzeige Drei Plattformen für unterschiedliche Zielgruppen Um verschiedene Einsatzzwecke abzudecken, vertreibt ElevenLabs sein KI-Modell über drei getrennte Plattformen. Die erste Plattform heißt ElevenMusic und richtet sich vornehmlich an Endanwender. Nutzer können hier Songs generieren, bearbeiten und die fertigen Tracks auch direkt und ausschließlich auf der Plattform veröffentlichen. Eine integrierte Monetarisierungsfunktion bietet engagierten Nutzern die Möglichkeit, mit ihren generierten KI-Werken Geld zu verdienen. Sobald andere Hörer die eigene Musik auf der Plattform abspielen oder remixen, generiert das direkte Einnahmen für den Ersteller. Für den professionellen Einsatz in Werbeclips, auf YouTube oder in gebrandeten Inhalten steht die etablierte Plattform ElevenCreative bereit. Hier erzeugen Unternehmen lizenzierte Musik in großem Maßstab. Zusätzlich können Entwickler über die ElevenAPI auch direkt auf das KI-Modell zugreifen. Damit lässt sich die Musikgenerierung programmgesteuert in eigene Anwendungen einbauen. Die Integration von Music v2 über diese Schnittstelle soll in Kürze verfügbar sein. Lizenzierte Trainingsdaten und neue Preise Rechtssicherheit spielt im kommerziellen Umfeld eine entscheidende Rolle. ElevenLabs trainiert Music v2 ausschließlich mit lizenzierten Audiodaten. Dadurch sind alle erzeugten Tracks für die kommerzielle Nutzung freigegeben, wodurch sich Anwender keine Gedanken über Freigabeverzögerungen oder nachträgliche Lizenzkosten machen müssen. Im Zuge der Veröffentlichung passt der Anbieter auch die Preisstruktur an. Für Self-Serve-Kunden sinken die Kosten bei ElevenCreative um bis zu 40 Prozent. Bei der Nutzung der ElevenAPI reduzieren sich die Preise sogar um bis zu 50 Prozent. Über folgenden Link erhält man im Creator-Plan zusätzlich 50 % Rabatt im ersten Monat. Ausprobieren lohnt sich. Anzeige

  • ElevenLabs verwandelt Chatbots in Voicebots mit einem Prompt

    Text wird zu Sprache

    GPT-Images-2.0

    Kurzfassung

    Quellen

    ElevenLabs hat die neue Audio-Ebene Speech Engine für bestehende Chatbots veröffentlicht.
    Die Integration erfolgt über ein SDK, ohne die vorhandene LLM- oder RAG-Architektur zu verändern.
    Integrierte Funktionen ermöglichen eine präzise Sprechpausen-Erkennung und ein automatisches Unterbrechungs-Management.
    Die Technologie unterstützt die Transkription in 90 Sprachen und die Sprachausgabe in über 70 Sprachen.

    ElevenLabs – Speech Engine Produktseite
    ElevenLabs Dokumentation – Speech Engine Übersicht
    ElevenLabs Dokumentation – Speech Engine Quickstart
    ElevenLabs Dokumentation – API-Referenz: Speech Engine erstellen
    ElevenLabs Dokumentation – API-Referenz: Speech Engine abrufen

    Ein einziger Prompt genügt, um bestehende textbasierte Chatbots in vollwertige Voicebots zu verwandeln. Die neue Audio-Ebene »Speech Engine« von ElevenLabs ermöglicht diese direkte Transformation, ohne dass Entwickler die bestehende KI-Infrastruktur oder Datenbasis anpassen müssen. Flexibler Audio-Aufsatz für bestehende KI-Modelle Die Integration erfolgt über ein SDK für JavaScript oder Python und setzt direkt auf der vorhandenen Infrastruktur auf. Entwickler behalten dadurch die vollständige Kontrolle über die Gesprächslogik, die Datenabfrage per RAG sowie das gewählte KI-Modell. Die Verbindung zum Server wird über das WebSocket-Protokoll hergestellt. Das SDK bietet eine integrierte Stream-Extraktion für etablierte KI-Modelle von OpenAI, Anthropic und Google. Für andere Anbieter lässt sich die Textausgabe als einfacher String übertragen. Im Gegensatz zur vollständig verwalteten Plattform ElevenAgents richtet sich diese Lösung an Entwickler, die eigene Inferenz-Strukturen nutzen wollen. + Quelle: Elevenlabs Zwei Prompts zum Glück

    Server SDK Prompt

    Copy

    import { ElevenLabsClient } from „@elevenlabs/elevenlabs-js“;
    import „dotenv/config“;
    const elevenlabs = new ElevenLabsClient({
    apiKey: process.env.ELEVENLABS_API_KEY,
    });
    const engine = await elevenlabs.speechEngine.create({
    name: „My Speech Engine“,
    speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: „wss://abc123.ngrok.io/ws“,
    },
    });
    console.log(„Speech Engine ID:“, engine.engineId);

    Prompt vollständig anzeigen

    Client SDK

    Copy

    import express from „express“;
    import { ElevenLabsClient } from „@elevenlabs/elevenlabs-js“;
    import „dotenv/config“;

    const app = express();
    const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
    const speechEngineId = „seng_8k3m9xr4hjnfg983brhmhkd98n6“;

    app.get(„/api/token“, async (req, res) => {
    const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
    res.json({ token });
    });

    app.listen(3002, () => console.log(„Token server listening on port 3002“));

    Prompt vollständig anzeigen

    Intelligente Steuerung natürlicher Konversationen Die neue Audio-Ebene kombiniert mehrere spezialisierte KI-Modelle, um eine minimale Latenz im realen Einsatz zu gewährleisten. Die Transkription der Nutzersprache unterstützt mehr als 90 Sprachen. Für die eigentliche Sprachausgabe stehen über 70 Sprachen sowie eine Bibliothek von 11.000 vorgefertigten Stimmen zur Verfügung. Für einen flüssigen Austausch sorgen integrierte Automatismen: Sprechpausen-Erkennung: Das KI-Modell unterscheidet präzise zwischen kurzen Pausen und dem tatsächlichen Ende einer Aussage. Unterbrechungs-Management: Sobald der Nutzer spricht, wird die Audioausgabe automatisch über ein Abbruchsignal gestoppt. Geräuschfilterung: Hintergrundgeräusche werden isoliert, sodass nur klare Audiosignale die Transkription erreichen. Die Steuerung der Sitzungen im Browser oder in mobilen Anwendungen wird über eine WebRTC-Token-Anbindung realisiert. Damit steht Entwicklern eine umfassende Architektur für die direkte Sprachinteraktion zur Verfügung. Anzeige

  • Prominente und Konzerne pumpen Millionen in ElevenLabs

    Zwei Menschen halten Elevenlabs hoch

    Nano Banana

    Kurzfassung

    Quellen

    ElevenLabs hat seinen jährlich wiederkehrenden Umsatz in den ersten vier Monaten des Jahres 2026 auf über 500 Millionen US-Dollar gesteigert.
    Im Zuge der Series-D-Finanzierung steigen neue Investoren wie Nvidia, BlackRock und prominente Schauspieler bei dem KI-Entwickler ein.
    Mit dem frischen Kapital plant das Unternehmen, seine Sprach-KI um Funktionen für die Bild- und Videogenerierung zu erweitern.
    Zudem profitierten die Mitarbeiter von einem Übernahmeangebot für ihre Unternehmensanteile im Wert von 100 Millionen US-Dollar.

    ElevenLabs Blog – ElevenLabs crosses $500M ARR as it welcomes new investors

    ElevenLabs verzeichnet ein beachtliches Umsatzwachstum und durchbricht beim jährlich wiederkehrenden Umsatz die Marke von 500 Millionen US-Dollar. Gleichzeitig sichert sich das Unternehmen frisches Kapital von Tech-Größen, Finanzinstituten sowie diversen Hollywood-Schauspielern. Finanzielle Meilensteine und prominente Unterstützer Ende 2025 lagen die Einnahmen noch bei 350 Millionen US-Dollar. Innerhalb der ersten vier Monate des Jahres 2026 stieg dieser Wert nun nochmals kräftig an. Angetrieben wird das wirtschaftliche Wachstum vor allem durch den verstärkten Einsatz von automatisierten Sprachassistenten in großen Unternehmen. Dementsprechend beteiligen sich im dritten Abschluss der Series-D-Runde diverse strategische Partner. Finanzinstitute wie BlackRock und Wellington steuern ebenso Kapital bei wie Technologiekonzerne, darunter Nvidia und Salesforce. Auch die Deutsche Telekom investiert aktuell und integriert die KI-Modelle für Echtzeit-Übersetzungen bereits direkt in das eigene Mobilfunknetz. Interessanterweise zieht das Vorhaben zunehmend Kreativschaffende an. Prominente wie Eva Longoria, Jamie Foxx sowie der Schöpfer der Serie »Squid Game« gehören nun zum offiziellen Investorenkreis. Sie sehen in der Technologie lukrative Einnahmequellen, wenn Stimmen künftig authentisch in verschiedene Sprachen übertragen werden. Zudem erhalten Privatanleger erstmals über Robinhood Ventures Zugang zu Unternehmensanteilen.

    Tool Test
    ElevenLabs Agents Test: Automatisierter Kundensupport war nie einfacher
    Das KI-Modell übernimmt Telefonate und Live-Chats in über 70 Sprachen. Die Einrichtung gelingt überraschend schnell und unkompliziert.

    Ausbau zur umfassenden Marketing-Plattform Künftig plant das Entwicklerteam eine weitreichende Ausweitung der bisherigen Funktionen. Die eigenen KI-Modelle sollen nicht mehr ausschließlich Audiosignale verarbeiten. Geplant ist vielmehr eine Kombination der bewährten Sprachtechnologie mit der direkten Generierung von Bildern und Videos. Ziel dieser technischen Erweiterung ist eine ganzheitliche Plattform, mit der Marketingabteilungen vollständige Werbekampagnen aus einer Hand erstellen können. Parallel dazu baut das Unternehmen seine Agenten-Systeme weiter aus, sodass diese Kunden bald nahtlos über Sprache, Chat und E-Mail betreuen. Von dem finanziellen Aufschwung profitiert auch die intern wachsende Belegschaft. In einem geschlossenen Übernahmeangebot konnten die mittlerweile 530 Beschäftigten eigene Anteile im Wert von 100 Millionen US-Dollar veräußern. Damit bindet der Entwickler seine Fachkräfte langfristig und stabilisiert die interne Unternehmensstruktur für kommende Projekte. Anzeige

  • ElevenMusic bezahlt Nutzer für generierte KI-Songs

    elevenmusic musik

    ElevenMusic

    Kurzfassung

    Quellen

    ElevenLabs hat mit ElevenMusic eine neue Plattform gestartet, die das Generieren von KI-Musik mit einem eigenen Streaming-Dienst verbindet.
    Nutzer profitieren von sehr günstigen Tarifen mit bis zu 400 Tracks für 9,99 US-Dollar, dürfen die Lieder aber ausschließlich intern auf der Plattform nutzen.
    Wer durch seine erstellten Songs oder Remixe eine hohe Reichweite innerhalb der App erzielt, wird von ElevenLabs finanziell vergütet.

    ElevenLabs Blog – Introducing ElevenMusic
    ElevenMusic – Offizielle Webplattform

    ElevenLabs startet mit ElevenMusic ein eigenständiges Portal, welches die Erstellung von KI-Musik direkt an einen Streaming-Dienst koppelt. Konsumenten generieren dort nicht nur eigene Songs, sondern erzielen durch Aufrufe ihrer Titel auch finanzielle Einnahmen.

    Angepasstes Preismodell bei limitierter Lizenzierung Gegenüber der Hauptplattform senkt der Anbieter die Kosten für das Generieren von Audiospuren drastisch. Kostenlos erzeugen die KI-Modelle für jeden Account täglich sieben neue Tracks. Wer ein monatliches Abonnement für 9,99 US-Dollar abschließt, sichert sich ein Kontingent von 400 Liedern. Zum Vergleich liefert das reguläre System für denselben Betrag lediglich einen Bruchteil dieser Ergebnisse. + Quelle: ElevenMusic Begründet liegt diese signifikante Preisdifferenz in den strikten Nutzungsrechten der neuen Applikation. Sämtliche auf ElevenMusic generierten Werke dürfen die Anwender ausschließlich innerhalb dieses spezifischen Netzwerks veröffentlichen und anhören. Eine externe kommerzielle Nutzung, beispielsweise für Werbekampagnen oder fremden Marken-Content, untersagen die Bedingungen konsequent. Benötigen Produzenten derartige weitreichende Rechte, führt der Weg unweigerlich über das teurere Standardangebot ElevenCreative Music. Anzeige Interaktives Streaming und Vergütung für Künstler Neben der reinen Erstellung positioniert sich die Software als direkter Konkurrent zu etablierten Audio-Diensten. Über 4.000 Künstler stellen ihre Werke dort bereits bereit, welche Hörer direkt in der Anwendung konsumieren. Gefällt ein bestimmter Song, verändern Nutzer über integrierte Tools kurzerhand das Tempo oder verschieben den musikalischen Stil in ein völlig anderes Genre. Ebenso erlaubt die Architektur komplett neue Kompositionen von Grund auf, gesteuert durch präzise Texteingaben oder gewünschte Stimmungen. Erzielte Reichweite wandelt das System schließlich in monetäre Erträge um. Finden die publizierten Eigenkreationen oder Remixe ein entsprechend großes Publikum, erhalten die Schöpfer finanzielle Ausschüttungen. Als Blaupause für diesen Mechanismus dient das Konzept der bestehenden Stimmen-Bibliothek des Unternehmens, über welche bereits über elf Millionen US-Dollar an die Community flossen. Die Webversion sowie die entsprechende iOS-App stehen ab sofort zur Verfügung unter https://elevenmusic.io/ Wer die Musik allerdings überall verwenden möchte, muss die große Plattform nutzen: ANZEIGE

  • Elevenlabs lässt dich jetzt KI-Musik verkaufen, die du nicht besitzt

    Elevenlabs startet einen Marktplatz für KI-generierte Musik und zahlt Erstellern Geld aus. Klingt gut, aber wem gehört die Musik eigentlich? Ein Blick in die Nutzungsbedingungen zeigt: niemandem so richtig.

    Der Artikel Elevenlabs lässt dich jetzt KI-Musik verkaufen, die du nicht besitzt erschien zuerst auf The Decoder.

  • ElevenLabs Flows bündelt alle KI-Modelle auf einer Oberfläche

    Ein Elevenlabs Flow Beispiel

    Nano Banana

    Kurzfassung

    Quellen

    ElevenLabs hat die neue Funktion „Flows“ für seine Plattform ElevenCreative veröffentlicht.
    Nutzer verknüpfen auf einer knotenbasierten Oberfläche über 35 KI-Modelle für Bild, Video und Audio.
    Durch den modularen Aufbau lassen sich spezifische Details ändern, ohne den gesamten Prozess neu berechnen zu müssen.
    Zudem ermöglicht die Massenausführung das automatische Erstellen vieler Varianten aus einer Vorlage.

    X (Twitter) – ElevenCreative

    ElevenLabs – Introducing Flows, the AI creative canvas

    ElevenLabs Documentation – Flows overview

    ElevenLabs – Introducing ElevenLabs Image & Video

    ElevenLabs bringt mit „Flows“ eine neue Funktion für seine Plattform ElevenCreative auf den Markt. Die digitale Oberfläche vereint Text-to-Speech, Bild-, Video- und Musikgenerierung direkt in einem einzigen, durchgehenden Prozess.

    Modulare Bausteine auf einer digitalen Leinwand Bisher erfordern komplexe KI-Projekte ständige Wechsel zwischen verschiedenen Anwendungen. Mit der Einführung von Flows ändert sich dieser Ablauf. Anwender arbeiten nun auf einer sogenannten knotenbasierten Oberfläche. Das bedeutet, sie verknüpfen einzelne Arbeitsschritte visuell wie Bausteine auf einem Bildschirm miteinander. + + Quelle: Elevenlabs Ein fertiges Bild fließt beispielsweise über eine direkte Verbindungslinie in ein Videomodell. Im nächsten Schritt fügt das System eine via Text-to-Speech generierte Stimme hinzu, synchronisiert die Lippenbewegungen und unterlegt das Ergebnis mit der passenden Hintergrundmusik. Mehr als 35 externe Bild- und Videomodelle lassen sich auf diese Weise kombinieren. Dazu gehören bekannte Systeme wie Sora von OpenAI oder Veo von Google. Diese verknüpft die Plattform nahtlos mit den eigenen, etablierten Audio-Modellen von ElevenLabs. ANZEIGE – ElevenLabs ausprobieren Gezielte Anpassungen statt kompletter Neuberechnung Ein großer Vorteil dieses modularen Aufbaus ist die hohe Effizienz bei nachträglichen Änderungen. Wenn in einem fertigen Video lediglich die Hintergrundmusik oder ein einzelner Satz der Sprecherstimme nicht gefällt, berechnet das System nur diesen spezifischen Knotenpunkt neu. Das aufwendig generierte Video bleibt dabei völlig unangetastet. Dieser Ansatz spart im Alltag enorm viel Zeit und wertvolle Rechenleistung. Einmal erstellte Abläufe lassen sich zudem speichern und als Vorlagen dauerhaft wiederverwenden. Die integrierte Massenausführung erlaubt es, einen festen Prozess direkt mit verschiedenen Eingabedaten zu füttern. Ein Marketing-Team kann so ein einziges Produktfoto hochladen und die Plattform erstellt automatisch zehn verschiedene Werbespots mit variierenden Texten und Stimmen. Die lästige manuelle Kleinarbeit entfällt dadurch komplett. Mit der neuen Funktion bündelt ElevenLabs die gesamte Multimedia-Produktion an einem zentralen Ort und vereinfacht die Handhabung komplexer KI-Anwendungen deutlich. Anzeige