Schlagwort: Ton

  • Google schlägt Sora 2 in Benchmarks

    Veo 3 Startbild

    Nano Banana

    Kurzfassung

    Quellen

    Google hat Veo 3.1 veröffentlicht, ein Update für sein KI-Videomodell, das erstmals nativen Ton erzeugen kann.
    Neue Funktionen wie „Insert“ erlauben das nachträgliche Hinzufügen von Objekten in erstellte Videos.
    Die Neuerungen sind in Googles Bearbeitungstool „Flow“ integriert und sollen die kreative Kontrolle verbessern.
    Seit dem Start von Flow wurden mit der Technologie bereits über 275 Millionen Videos generiert.

    Google Blog
    Google Developers Blog
    Google DeepMind
    Google Cloud Vertex AI
    TechCrunch

    Google DeepMind hat mit Veo 3.1 ein bedeutendes Upgrade für sein KI-Videomodell veröffentlicht. Die neue Version verbessert nicht nur die Bildqualität und die Genauigkeit bei der Umsetzung von Texteingaben, sondern übertrifft in direkten Vergleichen auch den Vorgänger Veo 3 und Konkurrenzmodelle wie Sora 2. Besonders die gesteigerte Konsistenz und der filmische Realismus stehen im Fokus. Besser, schärfer und verständiger Der Sprung von Version 3 zu 3.1 zeigt sich vor allem in drei Kernbereichen. Veo 3.1 erzeugt Videos mit höherem Realismus, insbesondere bei Texturen und der Darstellung von physikalischen Eigenschaften. Zudem wurde die sogenannte Prompt-Treue verbessert, das Modell setzt also die Anweisungen des Nutzers genauer und mit weniger Fehlinterpretationen um. Die wohl wichtigste Neuerung ist die gesteigerte Konsistenz. Charaktere und Objekte behalten über mehrere Szenen hinweg ihr Aussehen und ihre Eigenschaften bei, ein entscheidender Faktor für erzählerische Inhalte. Frühere Schwächen, wie plötzliche Veränderungen im Hintergrund oder bei Gesichtern, wurden gezielt adressiert.

    Veo 3.1 dominiert im direkten Vergleich Google untermauert die Fortschritte mit neuen Benchmark-Ergebnissen. In von Menschen durchgeführten Side-by-Side-Bewertungen wurde Veo 3.1 klar vor Veo 3 und führenden Konkurrenzmodellen eingestuft. Bei der visuellen Qualität bevorzugten die Tester in 54,6 Prozent der Fälle Veo 3.1 gegenüber Veo 3. Noch deutlicher fällt das Ergebnis bei der Genauigkeit der Prompts aus. Hier sahen die menschlichen Bewerter Veo 3.1 in 59,8 Prozent der Vergleiche vorne. Diese Zahlen deuten darauf hin, dass Google nicht nur die Ästhetik, sondern vor allem das grundlegende Verständnis und die zuverlässige Umsetzung von kreativen Ideen verbessert hat. + Quelle: Google – Benchmark über mehrere Kategorien, Veo 3.1 vs andere Bildgeneratoren. Bearbeitung direkt in der Szene Ein weiterer entscheidender Fortschritt sind die neuen Bearbeitungswerkzeuge. Mit der „Insert“-Funktion können Nutzer jetzt beliebige Objekte nachträglich in eine generierte Szene einfügen. Die KI analysiert dabei selbstständig Lichtverhältnisse, Schatten und den Stil des Videos, um das neue Element nahtlos zu integrieren. Google hat zudem angekündigt, dass bald eine „Remove“-Funktion folgen wird. Diese soll es ermöglichen, unerwünschte Objekte oder Personen aus einem Clip zu entfernen, während die KI den Hintergrund intelligent rekonstruiert. Diese Werkzeuge heben die Technologie von einer reinen Generierungs-KI zu einem interaktiven Bearbeitungstool.

    Der Ton macht das Video Die größte funktionale Erweiterung von Veo 3.1 ist die native Audio-Generierung. Das Modell erzeugt nun passenden Ton direkt zusammen mit dem Videomaterial. Nutzer können in ihren Prompts nicht nur die visuellen Aspekte, sondern auch Geräusche, Dialoge oder die musikalische Stimmung beschreiben. Dieser integrierte Ansatz vereinfacht den Produktionsprozess erheblich, da keine separaten Werkzeuge für die Vertonung mehr nötig sind. Die KI synchronisiert den Ton mit den visuellen Ereignissen im Clip. Veo 3.1 ist ab sofort in Googles Videobearbeitungstool Flow sowie über die Gemini API und Vertex AI verfügbar.

  • Die beste Video-KI halbiert die Preise

    Ein schwarzes Loch zieht Preise an

    Die beste Video-KI halbiert die Preise Google dreht an der Preisschraube. API-Projekte mit Ton werden kalkulierbarer, während stumme Clips bereits ab 0,10 $ pro Sekunde zu haben sind. Kurzfassung | Andreas Becker, 08.09.25
    gpt-image-1 | All-AI.de EINLEITUNG Google senkt die Preise für seine KI-Videomodelle Veo 3 und Veo 3 Fast spürbar. Für Veo 3 mit Ton fällt der Preis von 0,75 auf 0,40 US-Dollar pro Sekunde. Die schnellere Fast-Variante kostet nun nur noch 0,15 statt 0,40 US-Dollar. Auch wer Videos ohne Ton generieren will, zahlt deutlich weniger – ein klarer Vorteil für Entwickler und Produktionsstudios mit schmalem Budget. NEWS Neue Preismatrix für Veo 3 und Veo 3 Fast Google hat seine API-Preise überarbeitet und die Sekundenkosten für Videogenerierung deutlich gesenkt. Die Standardversion Veo 3, die besonders auf hohe Bildqualität ausgelegt ist, kostet mit Ton jetzt 0,40 US-Dollar pro Sekunde. Für Clips ohne Audio werden 0,20 US-Dollar fällig. Die schnellere Variante Veo 3 Fast fällt mit 0,15 US-Dollar für Videos mit Ton und 0,10 US-Dollar für stumme Clips nochmals günstiger aus. Beide Modelle erzeugen maximal acht Sekunden lange Videos in 720p oder 1080p. Optional kann synchronisierter Ton hinzugefügt werden. Die Wahl zwischen Bildqualität (Veo 3) und Verarbeitungsgeschwindigkeit (Veo 3 Fast) bleibt bestehen – die neue Preisstruktur sorgt dabei für mehr Flexibilität bei der Planung und Umsetzung von Projekten. + Quelle: Google – Preise über API für VEO Günstiger testen, schneller skalieren Die Preisreduktion öffnet neue Spielräume, vor allem für Agenturen, Content-Ersteller und Start-ups. Gerade bei iterativen Prozessen – etwa beim Testen verschiedener Videoansätze – sind die neuen Tarife ein echter Vorteil. Wer auf Ton verzichtet, kann besonders günstig produzieren: Ein stummer Clip mit Veo 3 Fast kostet nur noch zehn Cent pro Sekunde. Das senkt nicht nur die Einstiegshürde, sondern macht auch umfangreiche Tests und A/B-Vergleiche bezahlbarer. Für komplexere Anwendungen mit Ton, etwa in Social-Media-Kampagnen oder bei automatisierten Content-Systemen, sind die neuen Preise ebenfalls attraktiv. Die Möglichkeit, qualitativ hochwertige Videos mit Audio für 0,40 US-Dollar pro Sekunde zu erzeugen, war bislang großen Budgets vorbehalten – das ändert sich nun. Konkurrenzdruck als Auslöser? Dass Google an der Preisschraube dreht, dürfte auch mit dem zunehmenden Wettbewerb im Markt für KI-generierte Videos zusammenhängen. Anbieter wie Runway, OpenAI mit Sora oder das chinesische Modell Kling haben in den letzten Monaten vorgelegt. Gleichzeitig wächst das Angebot an Plattformen, die Veo als Grundlage für eigene Anwendungen integrieren. Mit den neuen Preisen wird die Google-API auch für Drittanbieter interessanter, die auf bezahlbare, skalierbare Video-Workflows angewiesen sind. Wer also schnell viele Clips braucht oder regelmäßig Inhalte produziert, bekommt mit Veo 3 Fast jetzt ein leistungsfähiges Werkzeug zu einem Bruchteil der bisherigen Kosten. Und auch alle, die Wert auf Bildqualität legen, können günstiger denn je auf Veo 3 setzen – ganz egal, ob mit oder ohne Ton. DEIN VORTEIL – DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
    Google senkt die API-Sekundenpreise für Veo 3 (0,40 $/s mit Ton) und Veo 3 Fast (0,15 $/s mit Ton) deutlich.
    Ohne Audio kosten Veo 3 0,20 $/s und Veo 3 Fast 0,10 $/s – gut für Tests und Batch-Generierung.
    Beide Modelle liefern 8-Sekunden-Clips in 720p/1080p; Veo 3 priorisiert Qualität, Veo 3 Fast Tempo.
    Die Preissenkung drückt Produktionsbudgets und macht API-Workflows mit Audio attraktiver.
    QUELLEN
    Google AI – Gemini Developer API Pricing (Veo 3 & Veo 3 Fast)
    fal.ai – Veo 3 Preisseite (0,40/0,20 $/s)
    fal.ai – Veo 3 Fast Preisseite (0,15/0,10 $/s)
    Google Cloud – Veo 3 Fast Modellseite (720p/1080p, Limits)

  • So funktionieren die neuen ChatGPT-5-Personas

    4 Personas bei ChatGPT

    So funktionieren die neuen ChatGPT-5-Personas Von spitz bis empathisch – welche Voreinstellung euch Zeit spart und euren Workflow beschleunigt? Kurzfassung | Andreas Becker, 11.08.25
    gpt-image-1 | All-AI.de EINLEITUNG Mit GPT-5 führt OpenAI ein Feature ein, das nicht nur Komfort, sondern auch Präzision bringt: vordefinierte Persönlichkeiten, die Stil und Ton automatisch anpassen. Damit sparen wir uns nervige Prompt-Bastelei und bekommen ChatGPT genau so, wie wir es gerade brauchen – sachlich, empathisch, effizient oder kantig. Doch welche Persona passt zu welchem Einsatz? Und was müssen wir beachten, damit sie uns nicht im Weg steht? NEWS Persönlichkeit aktivieren – aber richtig Die Auswahl der Personas findet sich in den ChatGPT-Einstellungen. Am Desktop aktivieren wir sie über das Profilmenü unter „Customize ChatGPT“, auf mobilen Geräten läuft es über Einstellungen und den Bereich „Personalisierung“. Dort legen wir fest, welche Persona neue Chats prägen soll. Der Wechsel wirkt sich nur auf frische Unterhaltungen aus, laufende Chats behalten ihre bisherige Einstellung. In manchen Fällen lässt sich die Persona auch direkt im Chat über einen „Style“-Schalter auswählen. Aktuell funktioniert das Ganze ausschließlich im Textmodus, nicht im Voice Chat. Der Vorteil liegt auf der Hand: Wir müssen nicht mehr jeden Prompt mit Formulierungshilfen und Stilwünschen aufbohren. Stattdessen reicht ein Klick, und ChatGPT bringt automatisch den richtigen Ton mit – je nachdem, ob wir gerade schnellen Output, emotionale Resonanz oder analytischen Tiefgang brauchen. Default – wenn alles gehen soll Die Standardpersona bleibt der Allrounder unter den Einstellungen. Sie klingt sachlich, freundlich und flexibel – perfekt für alle, die keine festen Vorlieben haben oder mit unterschiedlichen Themen arbeiten. Default passt sich automatisch an Inhalt und Kontext an, folgt unseren Custom Instructions und integriert sich nahtlos mit der Memory-Funktion. Im Alltag macht Default fast alles richtig: E-Mails schreiben, Code kommentieren, Themen zusammenfassen oder kurze Recherchen. Wer nicht viel mit Prompt-Tuning arbeitet, ist hier gut aufgehoben. Bei Bedarf lässt sich die Tonalität gezielt anpassen, ohne die Persona wechseln zu müssen. Zyniker – wenn’s knallen darf Diese Persona kommt scharfzüngig, sarkastisch und mit klarer Kante. Ideal für Situationen, in denen wir Schwächen entlarven oder übertreiben wollen – etwa bei zu glatten Marketingtexten, kritischen Headlines oder provozierenden Analysen. Der Zyniker bringt Formulierungen, die sitzen, ohne dabei den sachlichen Kern zu verlieren. Allerdings braucht der Ton Fingerspitzengefühl. Für offizielle Kommunikation oder Kundenkontakt ist der Zyniker oft zu spitz. Besser: Mit ihm brainstormen oder Texte schärfen – und dann mit Default oder Robot die finale Fassung aufpolieren. So nutzen wir die Stärken, ohne anzuecken. Robot – für klare Kante und Effizienz Robot spricht, wie ein Compiler denkt: direkt, ohne Umwege, mit maximaler Klarheit. Die Persona verzichtet auf Füllwörter, liefert präzise Anweisungen und startet meist mit der Antwort, nicht der Einleitung. Besonders im Tech-Bereich ist das Gold wert – egal ob Runbooks, API-Dokus oder Fehlersuche. Wer im Tunnelmodus unterwegs ist, profitiert von Robots Schnörkellosigkeit. Statt Diskussion gibt’s Ergebnis. Ideal bei Debugging, Kommandozeilen-Snippets oder SQL-Abfragen. Für tiefergehende Erklärungen wechseln wir anschließend auf Nerd – oder zurück zu Default für saubere Formulierungen. Zuhörer – wenn’s ums Denken geht Diese Persona bringt Ruhe in den Chat. Der Zuhörer reagiert empathisch, stellt klärende Fragen und hilft uns dabei, komplexe Entscheidungen zu strukturieren. Besonders hilfreich ist er bei diffusen Aufgaben: Projektplanung mit vielen Unsicherheiten, Karrierefragen, Teamkonflikten oder Lernzielen mit verschiedenen Optionen. Statt sofort mit Vorschlägen loszulegen, erkundet der Zuhörer zuerst unsere Ziele und Einschränkungen. Das sorgt für Ordnung im Kopf – und eröffnet oft überraschende Perspektiven. Wer anschließend in die Umsetzung gehen will, wechselt gezielt auf Robot oder Default. So bleibt die Trennung zwischen Analyse und Aktion klar. Nerd – der Deep-Dive-Modus Nerd ist der ideale Begleiter für alle, die es genau wissen wollen. Diese Persona erklärt mit Begeisterung, bleibt dabei aber verständlich. Egal ob Mathe, Quantenphysik, Softwarearchitektur oder Strategiefragen – Nerd liefert nicht nur die Antwort, sondern auch den Weg dorthin. Dabei brilliert er besonders bei Lernszenarien: Wir verstehen nicht nur, wie etwas funktioniert, sondern auch warum. Das macht ihn wertvoll für interne Schulungen, Code-Reviews oder anspruchsvolle Fragen, die mehr als ein schnelles „So geht’s“ erfordern. Wer mit Nerd arbeitet, bekommt weniger Buzzwords, mehr Substanz. Persona-Hacks: Was wir wissen sollten Wichtig ist, dass die Personas nur den Ton verändern – nicht die Fähigkeiten oder Regeln. Sicherheitsgrenzen, Systemlimits und inhaltliche Filter bleiben gleich. Auch ein zynischer ChatGPT wird keine Inhalte freigeben, die gegen Richtlinien verstoßen. Außerdem spielen Personas mit Custom Instructions und Memory zusammen. Wenn wir dort „bitte sachlich“ festlegen, dämpft das selbst die ausgeprägteren Stile wie Nerd oder Zyniker spürbar. Wer möglichst klare Wirkung will, sollte die Anweisungen entsprechend anpassen – oder für bestimmte Aufgaben eigene Custom-Presets vorbereiten. Persona-Auswahl: der Praxis-Kompromiss Letztlich geht es darum, mit möglichst wenig Aufwand den passenden Ton zu treffen. Robot hilft bei Tempo und Struktur, Zyniker bringt Reibung und Klartext, Zuhörer gibt Orientierung, Nerd liefert Tiefe – und Default bleibt die neutrale Grundlage für alles andere. Wer einmal den passenden Stil für seine Aufgabe gefunden hat, spart sich künftig viele Erklärungen. In der Praxis lohnt sich der Persona-Wechsel meist dann, wenn wir nicht weiterkommen oder der Output nicht den richtigen Ton trifft. Statt stundenlang am Prompt zu feilen, reicht ein schneller Wechsel – und der Dialog nimmt sofort eine andere Richtung. Probieren wir’s aus. DEIN VORTEIL – DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
    OpenAI führt mit GPT-5 fünf voreingestellte Persönlichkeiten für Text-Chats ein.
    Default, Cynic, Robot, Listener und Nerd passen Ton und Stil an, ohne die Fähigkeiten zu ändern.
    Der Wechsel erfolgt über die ChatGPT-Einstellungen und wirkt nur in neuen Unterhaltungen.
    Jede Persona hat klare Einsatzfelder – vom schnellen Faktencheck bis zur tiefgehenden Erklärung.
    QUELLEN
    Introducing GPT-5
    ChatGPT — Release Notes
    Customizing Your ChatGPT Personality
    ChatGPT-5 just got 4 new personalities — here’s how to use them (and why you should)

  • Googles neue Video-KI Veo 3 visualisiert eindrucksvoll Gaming-Konzepte

    Googles neues KI-Videomodell Veo 3 erzeugt realistische Videos mit Ton und kann dabei verschiedene Stile wiedergeben, darunter auch Videospiel-Ästhetik.

    Der Artikel Googles neue Video-KI Veo 3 visualisiert eindrucksvoll Gaming-Konzepte erschien zuerst auf THE-DECODER.de.