
Microsofts neues VibeVoice-System soll bis zu 90 Minuten lange Gespräche mit vier Sprecher:innen synthetisieren können. Ein neuartiger Speech Tokenizer macht die Langform-Generierung erst möglich.
Der Artikel Microsoft VibeVoice generiert in einem Rutsch 90-Minuten-Podcasts mit 4 Sprechern erschien zuerst auf THE-DECODER.de.