
Nano Banana
Kurzfassung
▾
Quellen
▾
DeepL erweitert das eigene Angebot um eine direkte Audio-Übersetzung namens »Voice-to-Voice«.
Die Technologie integriert sich als Add-on in Microsoft Teams sowie Zoom und übersetzt Meetings in Echtzeit.
Zusätzlich stehen Funktionen für mobile Gespräche, Gruppenchats per QR-Code und eine API für Geschäftskunden bereit.
Das System unterstützt zum Start über 40 Sprachen und berücksichtigt ab Mai auch individuelle Firmen-Glossare.
DeepL: DeepL Voice: sichere Sprachübersetzung für globale Teams
TechCrunch: DeepL, known for text translation, now wants to translate your voice
DeepL erweitert das eigene KI-Portfolio um eine Echtzeit-Sprachübersetzung mit echter Audioausgabe. Das neue System »Voice-to-Voice« übersetzt gesprochene Sprache verzögerungsfrei für virtuelle Meetings, persönliche Gespräche und kundennahe Anwendungen. Integration in Videokonferenzen Das Modul für Meetings klinkt sich als Add-on direkt in Microsoft Teams und Zoom ein. Teilnehmer sprechen während der Videokonferenz in ihrer jeweiligen Muttersprache. Das KI-Modell verarbeitet die Tonspur und gibt sie für die anderen Zuhörer in deren gewählter Zielsprache als hörbares Audio aus. Für dieses Programm plant der Entwickler im Juni einen Early Access, eine entsprechende Warteliste existiert bereits. Eine weitere Funktion namens »Voice for Conversations« ist unabhängig davon schon jetzt plattformübergreifend für Mobilgeräte und das Web nutzbar. Anzeige Gruppenchats und Fachbegriffe Für Schulungen oder Workshops bietet das Unternehmen ab dem 30. April erweiterte Gruppenkonversationen an. Nutzer treten diesen mehrsprachigen Sitzungen unkompliziert per QR-Code über ihr Smartphone bei. Eine bekannte technische Herausforderung bei der automatisierten Übersetzung bilden Eigennamen oder Branchenbegriffe. Hierfür integriert der Anbieter ab dem 7. Mai bestehende Glossare in das System. Fachbegriffe oder Produktnamen erkennt die Software dadurch in Echtzeit präzise und schließt diese gezielt von der Übersetzung aus. Technik und Programmierschnittstelle Unter der Haube arbeitet die Architektur aktuell noch mit einer klassischen Verarbeitungskette. Das Audiosignal wird in Text umgewandelt, übersetzt und anschließend per Text-to-Speech wieder synthetisiert. Zukünftig plant das Entwicklerteam jedoch den Sprung auf ein direktes End-to-End-Modell. Geschäftskunden können die Technologie über eine Voice-to-Voice-API in eigene Workflows wie Support-Center einbinden. Das System verarbeitet über 40 Sprachen, darunter sämtliche 24 offiziellen EU-Sprachen sowie Vietnamesisch, Arabisch und Thai. Die Registrierung für die Programmierschnittstelle ist für Unternehmen ab sofort möglich.