Schlagwort: Voice

  • Google AI Studio Leak zeigt Voice Cloning

    Ein Google Logo mit Sprache

    Nano Banana

    Kurzfassung

    Quellen

    Ein Leak im Google AI Studio enthüllt die neue Funktion „Create your Voice“ für Gemini 3 Flash. Nutzer können eigene Stimmprofile erstellen, wodurch die KI künftig mit dem persönlichen Timbre antwortet. Die native Integration soll besonders bei Video-KI für konsistente Charakterstimmen und bessere Synchronisation sorgen. Google arbeitet an Sicherheitsmechanismen gegen Deepfakes, ein offizielles Release-Datum steht noch aus.

    The Decoder – Google bereitet wohl native Audio-Fähigkeiten für Gemini 3 Flash vor

    TestingCatalog – Google tests voice cloning on AI Studio powered by Gemini

    X (TestingCatalog) – BREAKING: Google is testing Voice Cloning on AI Studio

    Times of AI – Google Reportedly Testing Voice Cloning and More in AI Studio

    Ein Leak im Google AI Studio enthüllt eine neue Funktion namens „Create your Voice“ für Gemini 3 Flash. Nutzer sollen damit künftig eigene Stimmen klonen und nativ im Modell verwenden können. Eigene Stimme als KI-Modell Entwickler stießen in der Benutzeroberfläche von Google AI Studio auf diese neuen Einstellungsoptionen. Der Menüpunkt „Custom Voice“ erlaubt das Hochladen eigener Sprachaufnahmen oder das direkte Einsprechen von Referenzmaterial. Die KI analysiert diese Daten in wenigen Augenblicken und generiert daraus ein synthetisches Stimmprofil. Das Ziel ist eine personalisierte Audio-Ausgabe mit hohem Nutzwert. Anstatt auf vorgefertigte Standardstimmen zurückzugreifen, antwortet der Chatbot künftig mit dem Timbre des Nutzers oder einer spezifisch definierten Charakterstimme. Diese Funktion tauchte kurzzeitig in der Testumgebung auf, was auf eine baldige Integration in die Entwickler-Tools hindeutet. + Quelle: testingcatalog.com Durchbruch für Video-KI Besonders für Content Creator und die Filmindustrie löst diese Funktion ein beständiges Problem. Video-Modelle haben aktuell noch Schwierigkeiten, Stimmen gekonnt und konsistent mit Charakteren zu verbinden. Produzenten nutzen daher oft umständliche Workflows über externe Anbieter wie ElevenLabs. Die native Zuweisung einer festen Stimme direkt im Modell könnte die Synchronisation revolutionieren. Gerade für KI-Influencer oder automatisierte Videoproduktionen sorgt dies für eine durchgängige Charakteridentität. Die Stimme bleibt stabil, egal was der Charakter sagt oder in welcher Sprache er spricht. Anzeige Sicherheit vor Release Die Technologie birgt jedoch Risiken. Die Erstellung von Deepfakes wird durch solche integrierten Tools vereinfacht. Google arbeitet daher im Hintergrund an strengen Sicherheitsmechanismen und Wasserzeichen für Audio-Daten. Aktuell bleibt die Funktion im AI Studio verborgen oder ist nur für einen sehr kleinen Kreis von Testern sichtbar. Ein offizielles Release-Datum mit diesen Audio-Features steht noch aus.

  • Nvidia PersonaPlex: Der Todesstoß für OpenAIs Advanced Voice Mode?

    Eine Nvidia-GPU kann sprechen

    Nano Banana

    Kurzfassung

    Quellen

    Nvidia veröffentlicht mit PersonaPlex ein offenes 7B-Sprachmodell, das Full-Duplex-Kommunikation für gleichzeitiges Hören und Sprechen ermöglicht. Die neue Architektur erlaubt Unterbrechungen in Echtzeit und eliminiert unnatürliche Gesprächspausen fast vollständig. Dank effizienter Parametergröße läuft das Modell lokal auf aktueller Consumer-Hardware, was Latenzen minimiert und Datenschutz gewährleistet. PersonaPlex positioniert sich als leistungsstarke Open-Source-Alternative zu geschlossenen Systemen wie OpenAIs Advanced Voice Mode.

    Nvidia Paper

    Nvidia auf Huggingsface

    Francisco Paris Blog – PersonaPlex: Conversaciones de IA que Escuchan Mientras Hablan

    Product Upfront – Voice AI just got good enough to fool you

    Nvidia bringt mit PersonaPlex Bewegung in den Markt für Sprach-KIs. Das neue, offene 7-Milliarden-Parameter-Modell beherrscht Full-Duplex-Kommunikation und ermöglicht damit Unterbrechungen in Echtzeit. Entwickler erhalten eine leistungsstarke, lokal ausführbare Alternative zu geschlossenen Systemen wie ChatGPT Voice. Ende des Walkie-Talkie-Modus Bisherige Sprachassistenten arbeiten überwiegend sequenziell. Der Nutzer spricht, das System verarbeitet die Eingabe und antwortet erst anschließend. Nvidia bricht mit diesem Schema durch die Implementierung einer echten Full-Duplex-Architektur. Das System verarbeitet Audioeingaben permanent und parallel zur eigenen Sprachausgabe, statt in starren Abfolgen zu operieren. Nutzer können der KI nun ins Wort fallen, ohne dass diese den Kontext verliert oder künstliche Pausen entstehen. Das Gesprächsgefühl nähert sich damit signifikant menschlicher Interaktion an, da das Modell auf verbale Einwürfe sofort reagiert. Die Latenzzeiten wurden laut technischen Dokumentationen so weit reduziert, dass sie unterhalb der menschlichen Wahrnehmungsschwelle für Gesprächspausen liegen. Anzeige Effizienz durch 7B-Architektur Technisch basiert PersonaPlex auf einem Modell mit sieben Milliarden Parametern (7B). Diese Größe stellt einen bewussten Kompromiss zwischen hoher Dialogkompetenz und technischer Effizienz dar. Im Gegensatz zu riesigen Large Language Models (LLMs), die massive Serverfarmen benötigen, lässt sich PersonaPlex auf kommerziell verfügbarer Hardware betreiben. Voraussetzung sind aktuelle Grafikbeschleuniger, womit Nvidia die Relevanz der eigenen RTX- und Datacenter-GPUs unterstreicht. Die Möglichkeit zur lokalen Inferenz eliminiert Netzwerklatenzen, die bei Cloud-Lösungen oft den Gesprächsfluss stören, und bietet Unternehmen die volle Kontrolle über ihre Daten. Sensible Gesprächsinhalte verlassen somit nicht zwingend die eigene Infrastruktur. + Quelle: nvidia Dynamische Persönlichkeiten statt statischer Stimmen Eine Kernfunktion der neuen Architektur ist die flexible Anpassung von Persönlichkeitsprofilen, die über den reinen Inhalt hinausgehen. Über System-Prompts lassen sich spezifische Verhaltensweisen definieren, die Tonfall, Sprechgeschwindigkeit und Reaktionsmuster dynamisch steuern. Das System trennt dabei die akustische Synthese nicht mehr strikt von der inhaltlichen Generierung. Das Modell wechselt bei Bedarf fließend zwischen einem sachlichen Berater und einem empathischen Gesprächspartner, je nach definiertem Szenario. Nvidia zielt damit primär auf den Kundenservice und komplexe Gaming-Anwendungen, in denen statische, emotionslose Computerstimmen oft die Immersion brechen. Angriff auf geschlossene Ökosysteme Mit der Veröffentlichung als offenes Modell setzt Nvidia die Konkurrenz unter Druck. Bislang dominierten Anbieter wie OpenAI mit dem „Advanced Voice Mode“ dieses Segment über geschlossene Schnittstellen. PersonaPlex bietet der Open-Source-Community nun eine Basis, um eigene, spezialisierte Sprachanwendungen zu entwickeln, ohne Lizenzgebühren pro gesprochener Minute an Cloud-Anbieter abzuführen.

  • Qwen3-TTS: Neue Open-Source-KI klont Stimmen perfekt und kostenlos

    Qwen TTS Übersicht

    Qwen

    Kurzfassung

    Quellen

    Alibaba veröffentlicht mit Qwen3-TTS ein leistungsstarkes Open-Source-Modell für Text-to-Speech und Voice Cloning. Das System läuft dank 1,7 Milliarden Parametern effizient lokal auf Consumer-Grafikkarten und schützt so die Privatsphäre. Nutzer können Stimmen in Sekunden klonen oder komplett neue Stimmprofile ohne Cloud-Kosten erstellen. Die Veröffentlichung stellt eine direkte Konkurrenz zu etablierten Bezahldiensten wie ElevenLabs dar.

    GitHub – Qwen3-TTS Repository

    Hugging Face – Qwen3-TTS Collection

    Qwen Blog – Qwen3-TTS Announcement

    GitHub – Technical Paper PDF

    Hugging Face – Interactive Demo

    Alibabas KI-Team veröffentlicht mit Qwen3-TTS ein leistungsstarkes Sprachmodell, das Voice Cloning und präzise Sprachsynthese beherrscht. Da der Code und die Gewichte vollständig Open Source sind, erhalten Entwickler eine mächtige, lokale Alternative zu kostenpflichtigen Cloud-Anbietern. Angriff auf die Platzhirsche Das Qwen-Team setzt seine aggressive Veröffentlichungsstrategie im Jahr 2026 fort. Nach den Erfolgen im Bereich der Textgenerierung zielt Qwen3-TTS nun auf den Markt für synthetische Sprache. Die Qualität der Sprachausgabe erreicht dabei ein Niveau, das bisher primär geschlossenen Systemen vorbehalten war. Das Modell verarbeitet Texteingaben mit einer bemerkenswerten Natürlichkeit. Es erfasst die Prosodie – also die Sprachmelodie und den Rhythmus – auch bei komplexen Satzstrukturen korrekt. Das oft kritisierte metallische Scheppern älterer Open-Source-Modelle gehört damit weitgehend der Vergangenheit an. + Quelle: Qwen Voice Cloning und Voice Design Die technisch interessanteste Funktion ist das „Zero-Shot Voice Cloning“. Dem System genügen wenige Sekunden einer Referenzaufnahme, um die Stimme und deren Charakteristika täuschend echt zu kopieren. Dies funktioniert ohne langwieriges Training direkt zur Laufzeit. Neben dem Klonen bietet Qwen3-TTS umfangreiche Möglichkeiten für das „Voice Design“. Nutzer können völlig neue Stimmenprofile erstellen, indem sie verschiedene Parameter kombinieren. Für Spieleentwickler und Content Creator entfällt damit die Abhängigkeit von begrenzten Standardstimmen. Anzeige Technische Basis und lokale Ausführung Technisch basiert das System auf einer Transformer-Architektur mit 1,7 Milliarden Parametern. Diese Größe wählt einen pragmatischen Mittelweg zwischen hoher Audioqualität und handhabbaren Hardwareanforderungen. Das Modell lässt sich damit effizient auf aktuellen Consumer-Grafikkarten betreiben. Die lokale Ausführbarkeit ist ein entscheidender Vorteil für datenschutzsensible Anwendungen. Audiodaten verlassen den eigenen Rechner nicht, was den Einsatz in sensiblen Firmenumgebungen erst ermöglicht. Zudem entfallen die laufenden Kosten pro generierter Minute, die bei Cloud-Diensten üblich sind. Einordnung in den Markt Der Release erfolgt in einer Woche, in der der Audio-KI-Markt stark in Bewegung ist. Während das gestern vorgestellte Chroma 1.0 sich auf Echtzeit-Dialoge spezialisiert, positioniert sich Qwen3-TTS als universelles Werkzeug für hochwertige Synthese. Der Druck auf etablierte Anbieter wie ElevenLabs wächst durch solche frei verfügbaren Alternativen massiv. Die Open-Source-Community erhält mit diesem Release ein Werkzeug, das bisherige Barrieren einreißt. Es ist davon auszugehen, dass in den kommenden Wochen zahlreiche Anwendungen auf Basis von Qwen3-TTS entstehen werden, die die Technologie in breite Softwarelösungen integrieren.

  • ChatGPT Voice: Der blaue Kreis ist tot!

    Ein Grabstein mit dem blauen Voice Orb von ChatGPT

    Nano Banana

    Kurzfassung

    Quellen

    OpenAI führt mit einem neuen Update die Sprach- und Textsteuerung in ChatGPT nahtlos in einer einzigen Benutzeroberfläche zusammen. Nutzer sehen nun während des Sprechens Echtzeit-Transkripte sowie visuelle Inhalte wie Karten oder Bilder direkt im Chatverlauf. Der bisherige isolierte Sprachmodus entfällt als Standard, lässt sich jedoch für Puristen über die Einstellungen manuell wieder aktivieren.

    TechBuzz – ChatGPT Voice Gets Major UX Upgrade

    Moneycontrol – OpenAI rolls out new unified ChatGPT Voice experience

    TechCrunch – ChatGPT’s voice mode is no longer a separate interface

    Thurrott – ChatGPT’s Voice Mode is Now Built Into Chat

    News9Live – OpenAI Rolls Out New ChatGPT Voice Mode

    OpenAI verabschiedet sich von getrennten Welten bei ChatGPT. Ein neues Update führt Sprachbefehle und Textnachrichten direkt zusammen. Nutzer sprechen nun mit der KI und sehen parallel die Antworten auf dem Display, ohne die gewohnte Chat-Umgebung zu verlassen. Das Ende des isolierten Sprachmodus Der bisherige blaue, pulsierende Kreis als exklusives Interface gehört der Vergangenheit an. Bislang wechselte die App beim Start einer Sprachunterhaltung automatisch in einen abgetrennten Vollbildmodus. Das Update beseitigt diesen visuellen Bruch vollständig. Stattdessen bleibt die bekannte Chat-Oberfläche auch während des Sprechens dauerhaft aktiv. Das gesprochene Wort verwandelt sich dabei in Echtzeit in lesbaren Text. Anwender verfolgen die Antworten der KI direkt mit, während diese ausgesprochen werden. Ein Wechsel zwischen Tippen und Reden funktioniert ab sofort ohne Verzögerung in derselben Ansicht. Diese Änderung zielt auf eine deutlich intuitivere Bedienung ab, bei der die Art der Eingabe keine Rolle mehr spielt und der Workflow nicht unterbrochen wird. Mehr Kontext durch visuelle Elemente Die Verschmelzung bringt konkrete funktionale Vorteile für komplexe Aufgaben. Visualisierungen wie Karten, Diagramme oder generierte Bilder erscheinen nun direkt im laufenden Gespräch auf dem Schirm. Früher war für die Betrachtung solcher Inhalte oft ein umständlicher Wechsel aus dem Sprachmodus heraus nötig. Gleichzeitig bleibt der gesamte Kontext der Unterhaltung jederzeit griffbereit. Während die KI spricht, lässt sich problemlos durch den Chatverlauf scrollen, um frühere Aussagen oder Daten zu prüfen. Informationen gehen nicht mehr im flüchtigen Audio-Stream verloren. Das System hält alle Daten visuell fest und unterstützt so auch längere, inhaltsreiche Dialoge deutlich effizienter als zuvor. Wahlfreiheit in den Einstellungen Trotz der offensichtlichen Vorteile erzwingt OpenAI den Wechsel nicht radikal. Manche Nutzer bevorzugen eventuell weiterhin die ablenkungsfreie Umgebung des ursprünglichen Designs ohne mitlaufenden Text. Für diese Gruppe steht in den Systemeinstellungen ein entsprechender Schalter bereit. Dort lässt sich die klassische Vollbild-Ansicht bei Bedarf reaktivieren. Wer den Fokus rein auf das Audio-Erlebnis legt, bekommt so das gewohnte Verhalten zurück. Mit diesem Update unterstreicht OpenAI den Anspruch, die Interaktion mit künstlicher Intelligenz so natürlich und barrierefrei wie möglich zu gestalten.

  • ChatGPT verschmilzt Voice- und Text-Chat

    OpenAI hat ChatGPT Voice direkt in den Text-Chat integriert.

    Der Artikel ChatGPT verschmilzt Voice- und Text-Chat erschien zuerst auf The Decoder.