Schlagwort: Video

  • Neues KI-Modell LPM 1.0 macht aus Text, Audio und Bild sprechende Echtzeit-Avatare

    KI-Figuren, die in Echtzeit sprechen, zuhören und singen: LPM 1.0 macht aus einem einzigen Bild ein Video mit Mimik, Lippensynchronisation und emotionalen Reaktionen. Noch ist es nur ein Forschungsprojekt.

    Der Artikel Neues KI-Modell LPM 1.0 macht aus Text, Audio und Bild sprechende Echtzeit-Avatare erschien zuerst auf The Decoder.

  • Iranische Militärs drohen mit Zerstörung von OpenAIs Stargate

    Eine Karte mit Nachtsicht vom Stargate

    Nano Banana

    Kurzfassung

    Quellen

    Die iranische Revolutionsgarde droht offen mit der Zerstörung des Stargate-KI-Rechenzentrums von OpenAI in Abu Dhabi.
    Ein veröffentlichtes Video der Militäreinheit zeigt detaillierte Nachtsicht- und Satellitenaufnahmen der Anlage.
    Die Drohung gilt als mögliche Vergeltung, falls die USA die iranische Stromversorgung angreifen.
    Bereits in den vergangenen Wochen kam es mutmaßlich zu iranischen Angriffen auf Cloud-Dienste von Amazon im Nahen Osten.

    Tom’s Hardware: Iran threatens ‘complete and utter annihilation’ of OpenAI’s $30B Stargate AI data center in Abu Dhabi

    Die iranische Revolutionsgarde droht mit der Zerstörung des Stargate-KI-Rechenzentrums von OpenAI in Abu Dhabi. Ein veröffentlichtes Video der Militäreinheit zeigt detaillierte Satellitenaufnahmen der 30 Milliarden US-Dollar teuren Anlage und warnt vor direkten Angriffen auf amerikanische Tech-Infrastruktur.

    Twitter Beitrag – Cookies links unten aktivieren.

    #BREAKING Spokesman of Iran’s Khatam al-Anbiya Headquarters: Nothing is hidden from our sight.‌All ICT companies in the region will be considered legitimate targets for us. pic.twitter.com/nFdvWjoh5R — Tehran Times (@TehranTimes79) April 3, 2026 Satellitenbilder im Fadenkreuz Brigadegeneral Ebrahim Zolfaghari verknüpft die Drohung an eine klare Bedingung. Sollten die USA die iranische Stromversorgung beschädigen, folgen umgehend Vergeltungsschläge gegen Einrichtungen amerikanischer Unternehmen im Nahen Osten. Das Video untermauert die Drohgebärde visuell. Es zoomt auf eine scheinbar leere Wüstenfläche in Abu Dhabi. Eine eingeblendete Texttafel verkündet dabei: »Nichts bleibt unseren Blicken verborgen, auch wenn es von Google versteckt wird.« Anschließend wechselt die Ansicht in den Nachtsichtmodus und offenbart das Ausmaß des ein Gigawatt starken Rechenzentrums. In dieser Anlage verarbeiten kommende KI-Modelle während des Trainings Billionen von Token. Anzeige Ernsthafte Gefahr für die Hardware Die Drohung reiht sich in eine Serie von Zwischenfällen ein. In den vergangenen Wochen meldeten Betreiber bereits Störungen bei einigen Cloud-Diensten von Amazon. Berichte bringen diese Ausfälle mit iranischen Raketenangriffen in Verbindung. Zuvor sprach die Führung in Teheran bereits ähnliche Warnungen gegen Firmen wie Nvidia, Microsoft und Apple aus. Die physische Sicherheit für den Betrieb der teuren Infrastruktur rückt damit in den Mittelpunkt. Neben den finanziellen Investitionen stehen vor allem die vor Ort arbeitenden Menschen im Fokus der aktuellen Gefahrenlage. Beide Seiten zeigen derzeit keine Bereitschaft zum Einlenken. Die kommenden Wochen werden zeigen, wie sicher die Server amerikanischer Tech-Konzerne in der Golfregion tatsächlich sind.

  • ElevenLabs Flows bündelt alle KI-Modelle auf einer Oberfläche

    Ein Elevenlabs Flow Beispiel

    Nano Banana

    Kurzfassung

    Quellen

    ElevenLabs hat die neue Funktion „Flows“ für seine Plattform ElevenCreative veröffentlicht.
    Nutzer verknüpfen auf einer knotenbasierten Oberfläche über 35 KI-Modelle für Bild, Video und Audio.
    Durch den modularen Aufbau lassen sich spezifische Details ändern, ohne den gesamten Prozess neu berechnen zu müssen.
    Zudem ermöglicht die Massenausführung das automatische Erstellen vieler Varianten aus einer Vorlage.

    X (Twitter) – ElevenCreative

    ElevenLabs – Introducing Flows, the AI creative canvas

    ElevenLabs Documentation – Flows overview

    ElevenLabs – Introducing ElevenLabs Image & Video

    ElevenLabs bringt mit „Flows“ eine neue Funktion für seine Plattform ElevenCreative auf den Markt. Die digitale Oberfläche vereint Text-to-Speech, Bild-, Video- und Musikgenerierung direkt in einem einzigen, durchgehenden Prozess.

    Modulare Bausteine auf einer digitalen Leinwand Bisher erfordern komplexe KI-Projekte ständige Wechsel zwischen verschiedenen Anwendungen. Mit der Einführung von Flows ändert sich dieser Ablauf. Anwender arbeiten nun auf einer sogenannten knotenbasierten Oberfläche. Das bedeutet, sie verknüpfen einzelne Arbeitsschritte visuell wie Bausteine auf einem Bildschirm miteinander. + + Quelle: Elevenlabs Ein fertiges Bild fließt beispielsweise über eine direkte Verbindungslinie in ein Videomodell. Im nächsten Schritt fügt das System eine via Text-to-Speech generierte Stimme hinzu, synchronisiert die Lippenbewegungen und unterlegt das Ergebnis mit der passenden Hintergrundmusik. Mehr als 35 externe Bild- und Videomodelle lassen sich auf diese Weise kombinieren. Dazu gehören bekannte Systeme wie Sora von OpenAI oder Veo von Google. Diese verknüpft die Plattform nahtlos mit den eigenen, etablierten Audio-Modellen von ElevenLabs. ANZEIGE – ElevenLabs ausprobieren Gezielte Anpassungen statt kompletter Neuberechnung Ein großer Vorteil dieses modularen Aufbaus ist die hohe Effizienz bei nachträglichen Änderungen. Wenn in einem fertigen Video lediglich die Hintergrundmusik oder ein einzelner Satz der Sprecherstimme nicht gefällt, berechnet das System nur diesen spezifischen Knotenpunkt neu. Das aufwendig generierte Video bleibt dabei völlig unangetastet. Dieser Ansatz spart im Alltag enorm viel Zeit und wertvolle Rechenleistung. Einmal erstellte Abläufe lassen sich zudem speichern und als Vorlagen dauerhaft wiederverwenden. Die integrierte Massenausführung erlaubt es, einen festen Prozess direkt mit verschiedenen Eingabedaten zu füttern. Ein Marketing-Team kann so ein einziges Produktfoto hochladen und die Plattform erstellt automatisch zehn verschiedene Werbespots mit variierenden Texten und Stimmen. Die lästige manuelle Kleinarbeit entfällt dadurch komplett. Mit der neuen Funktion bündelt ElevenLabs die gesamte Multimedia-Produktion an einem zentralen Ort und vereinfacht die Handhabung komplexer KI-Anwendungen deutlich. Anzeige

  • NotebookLM verwandelt Dokumente in animierte Videos

    Ein Google LM Bild aus der Physik

    Nano Banana

    Kurzfassung

    Quellen

    Google erweitert NotebookLM um die neue Funktion Cinematic Video Overviews. Die KI erstellt aus hochgeladenen Dokumenten automatisch filmische und vertonte Videos. Nutzer steuern den Fokus der visuellen Zusammenfassung gezielt über einen Prompt. Das Feature ist vorerst nur auf Englisch und für Abonnenten von Google-AI-Ultra verfügbar.

    Google Blog – Generate your own Cinematic Video Overviews in NotebookLM.

    NotebookLM (offiziell, X) – Introducing Cinematic Video Overviews, the next evolution of the NotebookLM Studio.

    Google (YouTube) – New: Cinematic Video Overviews on NotebookLM

    Google integriert eine neue Funktion in seinen KI-Dienst NotebookLM. Anwender wandeln ihre hochgeladenen Dokumente ab sofort automatisch in filmische Video-Zusammenfassungen um. Das erweitert die bisherigen Audio-Podcasts um eine visuelle Ebene.

    Vom Text zum bewegten Bild Bislang generierte NotebookLM aus Texten und Notizen vor allem Audio-Diskussionen. Nun ergänzt Google das System um sogenannte „Cinematic Video Overviews“. Die künstliche Intelligenz analysiert die bereitgestellten Quellen tiefgehend und erzeugt daraus ein zusammenhängendes Video. Die Software identifiziert Kernbegriffe und wählt selbstständig passende visuelle Darstellungen. So entstehen kurze Filmsequenzen, die den Inhalt komplexer Dokumente anschaulich zusammenfassen. Anwender steuern diesen Generierungsprozess über einfache Textbefehle. Ein kurzer Prompt reicht aus, um den Fokus des Videos auf bestimmte Aspekte der Dokumente zu lenken. Die KI übernimmt anschließend den gesamten Schnitt. Sie kümmert sich um die Bildabfolge, berechnet die Übergänge und fügt eine passende Vertonung hinzu. Das resultierende Video bereitet die wichtigsten Erkenntnisse aus langen Studien, Finanzberichten oder wissenschaftlichen Arbeiten visuell auf. Dadurch sparen Nutzer viel Zeit bei der Auswertung großer Textmengen. Anzeige Technische Anforderungen und Verfügbarkeit Die neue Videofunktion integriert sich direkt in die bestehende Studio-Umgebung von NotebookLM. Für die aufwendige Berechnung der Videos greift Google auf seine fortschrittlichsten Bild- und Textmodelle zurück. Diese hohe Rechenleistung erfordert ein entsprechendes Abonnement. Daher steht das Feature vorerst ausschließlich zahlenden Kunden von Google-AI-Ultra zur Verfügung. Zum Start gibt es klare Einschränkungen bei der Nutzung. Die Video-Generierung versteht und verarbeitet momentan nur englischsprachige Eingaben. Auch die generierten Audio-Kommentare innerhalb der Videos erfolgen auf Englisch. Google schränkt den Zugang zusätzlich ein und gibt die Funktion nur für Anwender ab 18 Jahren frei. Ein genauer Termin für die Unterstützung weiterer Sprachen fehlt bislang.

  • Die Funktionen von Seedance 2.0 sind von einer anderen Welt

    Ein Drache schlägt einen Volleyball

    Nano Banana

    Kurzfassung

    Quellen

    ByteDance veröffentlicht mit Seedance 2.0 ein multimodales KI-Modell, das Video, Bild und Audio in einem einzigen Prozess generiert und synchronisiert. Neue „Director-Level“-Werkzeuge ermöglichen eine präzise Steuerung der Bildkomposition und die Übertragung von Bewegungen aus Referenzvideos auf generierte Charaktere. Interne Benchmarks zeigen Vorteile bei der zeitlichen Konsistenz und Objekttreue gegenüber westlichen Konkurrenten, während kritische Voice-Cloning-Features aus Sicherheitsgründen vorerst deaktiviert wurden.

    ByteDance Seed – Official Launch of Seedance 2.0

    ByteDance Seed – Seedance 2.0 Product Page

    ByteDance Seed Blog – Seedance 2.0 Official Release (CN)

    ByteDance hat heute mit Seedance 2.0 ein neues generatives KI-Modell vorgestellt, das die Lücke zu Konkurrenten wie Sora 2 schließen soll. Das System integriert Video-, Audio- und Bildgenerierung in einem einzigen Modell und verspricht durch neue Steuermechanismen präzise Eingriffe in die Bildkomposition. Die Entwicklung generativer Video-KI bewegt sich weg von der reinen Erzeugung kurzer Clips hin zu kontrollierbaren Produktionswerkzeugen. Während frühere Modelle oft mit physikalischen Halluzinationen und mangelnder zeitlicher Kohärenz zu kämpfen hatten, adressiert ByteDance mit Seedance 2.0 primär die Steuerbarkeit der Ausgabe. Das Modell wurde als „All-in-One“-Lösung konzipiert, die nicht nur Pixel generiert, sondern diese kontextabhängig mit passenden Audiospuren verknüpft. Quelle: bytedance Benchmark-Analyse: Vorsprung durch Daten ByteDance untermauert die Leistungsfähigkeit von Seedance 2.0 mit einer Reihe interner und synthetischer Benchmarks. Die veröffentlichten Daten suggerieren eine Überlegenheit gegenüber aktuellen westlichen Modellen, müssen jedoch – wie bei Herstellerangaben üblich – mit einer gewissen Skepsis betrachtet werden, bis unabhängige Tests vorliegen. Anzeige Im Bereich Text-zu-Video (Text-to-Video) zeigen die Benchmark-Grafiken eine signifikante Verbesserung in der semantischen Umsetzung komplexer Prompts. Ein häufiges Problem generativer Modelle ist das „Vergessen“ von Details bei langen Eingabebefehlen. Seedance 2.0 soll laut Datenblatt eine höhere Trefferquote bei der korrekten Platzierung von Objekten und der Einhaltung physikalischer Grundregeln aufweisen. Die Metriken deuten darauf hin, dass die zeitliche Konsistenz – also das stabile Beibehalten von Objekten über mehrere Sekunden hinweg – optimiert wurde, was das typische Flimmern reduziert. + Quelle: bytedance Die Auswertung der Bild-zu-Video (Image-to-Video) Performance hebt die Identitätsbewahrung hervor. Eine der größten Herausforderungen besteht darin, ein statisches Referenzbild zu animieren, ohne dass sich die Gesichtszüge oder strukturelle Merkmale des Motivs verfremden. Die von ByteDance präsentierten Kurven zeigen hier einen Vorsprung in der „Subject Fidelity“. Das bedeutet, dass das Modell in der Lage ist, die in einem Startbild definierten Informationen (Lichtsetzung, Textur, Geometrie) exakter in die Bewegung zu übersetzen als Vorgängerversionen, die oft zu starken Halluzinationen neigten. + Quelle: bytedance Besonders betont der Hersteller die Ergebnisse der multimodalen Aufgaben-Evaluation. Hierbei muss das Modell Informationen aus verschiedenen Quellen (z.B. ein Referenzbild, eine Audio-Datei und ein Text-Prompt) gleichzeitig verarbeiten. Die Benchmark-Werte indizieren, dass Seedance 2.0 diese Inputs nicht isoliert betrachtet, sondern korreliert. Ein Beispiel hierfür ist die Lippensynchronität oder die Anpassung der visuellen Stimmung an eine vorgegebene Audiospur. Die Daten legen nahe, dass die Latenz zwischen den Modalitäten minimiert wurde, was für einen flüssigeren Gesamteindruck sorgt. + Quelle: bytedance Granulare Steuerung statt Zufallsgenerator Das zentrale Verkaufsargument von Seedance 2.0 ist der Übergang von der bloßen Generierung zur „Regie-Führung“ (Director-level Control). Bisherige Modelle funktionierten oft nach dem Prinzip einer Blackbox: Der Nutzer gibt Text ein und hofft auf ein brauchbares Ergebnis. Seedance 2.0 implementiert Werkzeuge, die aus der professionellen Videoproduktion entlehnt sind. Anzeige Dies zeigt sich insbesondere in der Funktion zur Struktur- und Bewegungsübertragung. Nutzer können ein Referenzvideo hochladen – etwa eine Person, die vor einem Greenscreen agiert oder eine einfache Aufnahme mit dem Smartphone. Das Modell extrahiert die Bewegungsmuster (ähnlich einem Motion-Capture-Verfahren) und überträgt diese auf eine neu generierte Figur. So lässt sich die Gestik eines realen Schauspielers eins zu eins auf einen Anime-Charakter oder eine fotorealistische Kunstfigur mappen. Technisch deutet dies auf eine fortgeschrittene Nutzung von Pose-Estimation-Algorithmen und Depth-Maps hin, die als rigides Grundgerüst für den Diffusionsprozess dienen. Quelle: bytedance Ein weiterer technischer Fortschritt liegt in der integrierten Audio-Synthese. Während Video und Audio bisher meist in getrennten Arbeitsschritten und oft mit unterschiedlichen KIs erstellt wurden, generiert Seedance 2.0 den Ton nativ passend zum Bildinhalt. Das System erkennt visuelle Ereignisse – wie das Zuschlagen einer Tür oder das Bellen eines Hundes – und erzeugt parallel die entsprechende Wellenform. Dies reduziert den Post-Production-Aufwand erheblich, da keine externe Sound-Bibliothek oder separate Audio-KI synchronisiert werden muss. Quelle: bytedance Der Ersteindruck ist jedenfalls überragend und besser als bei Sora 2 und Veo3.1, also der aktuellen Spitze bei Videogeneratoren.

  • Grok Imagine Video überholt Sora 2 und Veo 3.1 im Ranking

    Grok Roboter kämpft gegen Google und OpenAI

    Nano Banana

    Kurzfassung

    Quellen

    Grok Imagine Video hat sich im Artificial Analysis Leaderboard mit einem ELO-Score von 1.248 an die Spitze gesetzt und verdrängt damit Runway und Google. OpenAIs Sora 2 Pro fällt im Ranking auf Platz 9 zurück, was auch auf die extremen Kosten von 30 Dollar pro Videominute zurückzuführen ist. In der qualitativen Text-to-Video Arena führen Google und OpenAI zwar noch knapp, Grok schließt jedoch als „Preliminary“-Kandidat bereits dicht auf.

    xAI Grok Imagine API – Künstliche Analyse Text-to-Video Rankings

    X Post – Grok Imagine Nummer 1 in Text-zu-Video und Image-zu-Video

    SeaArt AI – 15 Grok Imagine Prompts für kreative Ideen

    9meters.com – Beste Text-zu-Video-Modelle 2026

    Artificial Analysis – Video Arena Rankings

    Die Rangordnung bei KI-Videogeneratoren hat sich über Nacht drastisch verschoben, womit die Dominanz von OpenAI und Google erstmals ernsthaft bröckelt. Aktuelle Benchmark-Daten zeigen, dass xAI mit Grok Imagine Video die etablierten Platzhirsche in entscheidenden Metriken hinter sich lässt. Wachablösung im ELO-Ranking Das viel beachtete Leaderboard von Artificial Analysis zeichnet ein deutliches Bild der aktuellen Marktlage. Grok Imagine Video hat sich kurz nach Veröffentlichung im Januar 2026 mit einem ELO-Score von 1.248 direkt auf den ersten Platz geschoben. Damit verweist die KI von Elon Musks Unternehmen den bisherigen Verfolger Runway Gen-4.5 auf den zweiten Rang. Besonders überraschend ist das Abschneiden von OpenAI: Das einst als Referenz geltende Sora 2 Pro landet mit einem Score von 1.210 nur noch auf dem neunten Platz. + Quelle: artificialanalysis.ai Diskrepanz bei den Nutzerbewertungen Ein Blick auf die „Text-to-Video Arena“ zeigt jedoch, dass der Kampf um die Qualitätskrone noch nicht eindeutig entschieden ist. Hier liefern sich Google und OpenAI weiterhin ein Kopf-an-Kopf-Rennen, bei dem Veo 3.1 und Sora 2 Pro mit jeweils 1.370 Punkten die Liste anführen. Grok Imagine Video liegt in diesem Blind-Test-Szenario aktuell auf dem vierten Platz, trägt jedoch noch den Status „Preliminary“. Der Abstand zur Spitze ist mit 1.357 Punkten minimal, was auf eine rasante Aufholjagd hindeutet, sobald mehr Nutzerabstimmungen in die Wertung einfließen. + Quelle: arena.ai Preis-Leistung als entscheidender Faktor Neben der reinen Bildqualität dürfte die Preisgestaltung ein wesentlicher Grund für den Erfolg von Grok sein. Mit Kosten von 4,20 US-Dollar pro Minute Video generiert xAI Inhalte deutlich günstiger als die Konkurrenz. Im direkten Vergleich wirkt das Preismodell von OpenAI beinahe obsolet. Sora 2 Pro schlägt mit massiven 30,00 US-Dollar pro Minute zu Buche, was die Nutzung für viele professionelle Anwender wirtschaftlich unattraktiv macht. Anzeige Geschwindigkeit und Modellvarianten Google versucht derweil, mit verschiedenen Modell-Versionen im Rennen zu bleiben. Die Modelle Veo 3.1 und Veo 3 besetzen im ELO-Ranking zwar solide Plätze im Mittelfeld, können aber die Spitzenposition von Grok derzeit nicht gefährden. Interessant ist hierbei die Konsistenz der neuen Modelle. Während Kling und Luma Labs ihre Positionen in den Top 10 halten, zeigt der steile Aufstieg von xAI, wie schnell sich technische Vorsprünge im Jahr 2026 egalisieren lassen.

  • Google Veo Update bringt perfekte Konsistenz für KI-Videos

    Veo Videos in einem Bild

    Google

    Kurzfassung

    Quellen

    Google Veo 3.1 führt die Funktion „Ingredients to Video“ ein, womit Charaktere und visuelle Stile durch Referenzbilder exakt beibehalten werden. Das Update optimiert die Erstellung vertikaler Videos aus Porträtfotos speziell für Social-Media-Plattformen wie TikTok oder Reels. Creator erhalten präzisere Kontrolle über technische Parameter wie Kamerafahrten und Beleuchtung für professionellere Ergebnisse.

    Google Blog – Veo 3.1 Ingredients to Video: More consistency, creativity and control

    The Verge – Google’s Veo now turns portrait images into vertical AI videos

    TechCrunch – Google’s update for Veo 3.1 lets users create vertical videos through reference images

    Techeblog – Google’s New Veo 3.1 Update Includes Ingredients to Video

    Blockchain.news – Google DeepMind Unveils Veo 3.1 Update

    Google veröffentlicht mit Veo 3.1 ein Update, das die bisher größte Schwäche generativer Video-KI adressiert: mangelnde Konsistenz. Durch die Nutzung spezifischer Bild-Referenzen erhalten Creator präzise Werkzeuge an die Hand, um Charaktere und Stile exakt beizubehalten, was professionelle Workflows massiv erleichtert. Das Ende des Zufallsprinzips Bisher glich die Erstellung von KI-Videos oft einem Glücksspiel, bei dem Textprompts zu variierenden Ergebnissen führten. Mit der neuen Funktion „Ingredients to Video“ ändert DeepMind diesen Ansatz grundlegend. Nutzer laden nun Referenzbilder hoch, die als visuelle Ankerpunkte dienen. Diese „Zutaten“ fungieren als strikte Vorgabe für das Modell. Ein hochgeladenes Bild einer Person sorgt dafür, dass deren Gesichtszüge und Kleidung im generierten Video erhalten bleiben. Ebenso lässt sich ein stilistisches Referenzbild nutzen, um den visuellen Look – etwa Cyberpunk oder Aquarell – über mehrere Szenen hinweg zu fixieren. Die KI verknüpft diese visuellen Inputs mit den textlichen Regieanweisungen. Das System versteht den Kontext der Bilder und animiert diese entsprechend der Prompt-Vorgaben, ohne die ursprüngliche Identität oder Ästhetik zu verzerren. Dies ermöglicht erstmals echtes Storytelling mit wiederkehrenden Charakteren ohne aufwendiges Post-Processing.

    Vertikaler Content im Fokus Neben der Konsistenz legt Google einen klaren Schwerpunkt auf Social-Media-Formate. Veo 3.1 unterstützt nun nativ die Erstellung vertikaler Videos aus Porträt-Bildern. Content Creator müssen Referenzbilder im Hochformat nicht mehr mühsam zuschneiden oder qualitativ minderwertig skalieren. Die KI generiert den Bewegtbildinhalt direkt im passenden Seitenverhältnis für Plattformen wie TikTok oder Instagram Reels. Das Modell füllt fehlende Bildinformationen am oberen und unteren Rand intelligent auf, falls das Ausgangsmaterial nicht ganz passt. Dieser Schritt zeigt Googles Ambition, Veo nicht nur als experimentelles Tool, sondern als Produktionsmittel für den täglichen Social-Media-Einsatz zu etablieren. Die Hürde zwischen einem statischen Foto und einem viralen Short-Video wird damit fast vollständig entfernt.

    Präzision für professionelle Workflows Das Update bringt zudem eine verfeinerte Steuerung technischer Parameter mit sich. Regieanweisungen bezüglich Kamerabewegungen und Beleuchtung werden von Veo 3.1 deutlich akkurater umgesetzt als in der Vorgängerversion. Filmemacher können spezifizieren, ob eine Szene im harten Gegenlicht oder mit weicher Ausleuchtung stattfinden soll. Auch komplexe Kamerafahrten, wie ein Dolly-Zoom oder ein langsamer Panoramaschwenk, lassen sich gezielter abrufen. Das System interpretiert technische Begriffe nun eher wie eine Render-Engine und weniger wie ein Sprachmodell. Die Kombination aus visueller Konsistenz durch „Ingredients“ und technischer Kontrolle macht Veo 3.1 zu einem ernsthaften Konkurrenten für traditionelle Animationssoftware. Es schließt die Lücke zwischen reiner Text-zu-Video-Spielerei und kontrollierbarer Videoproduktion. Anzeige

  • Klings Video O1 kann Szenen, Subjekte und Kameraeinstellungen ändern – alles gleichzeitig

    Sechs Blickwinkel einer Frau in weißem Top und orangen Hosen, überlagert mit 'Generate different angles of @Video1'.

    Das chinesische KI-Unternehmen Kling AI hat das Modell „Video O1“ vorgestellt. Laut Kling AI handelt es sich um das „weltweit erste vereinheitlichte multimodale Videomodell“, das verschiedene Aufgaben der Videogenerierung und -bearbeitung in einem einzigen System zusammenführt.

    Der Artikel Klings Video O1 kann Szenen, Subjekte und Kameraeinstellungen ändern – alles gleichzeitig erschien zuerst auf The Decoder.

  • Lightricks LTX-2 besser als Sora 2?

    Ein Mann in einem KI-Video

    Lightricks

    Kurzfassung

    Quellen

    Lightricks hat LTX-2 vorgestellt, ein Open-Source-Modell zur KI-Videogenerierung. Die KI erstellt Videos in nativer 4K-Auflösung mit bis zu 50 FPS und synchronisiertem Audio in einem Schritt. Das Modell läuft effizient auf handelsüblichen Consumer-Grafikkarten und soll 50% günstiger als Konkurrenten sein. LTX-2 positioniert sich als offene Alternative zu geschlossenen Systemen wie OpenAI Sora 2 und Google Veo 3.1.

    Lightricks (offizieller Twitter-Account @ltx_model) – Ankündigung vom 23. Oktober 2025 Lightricks Blog – Introducing LTX-2: A New Chapter in Generative AI Lightricks LinkedIn (Zeev Farbman, CEO) – Offizielle Ankündigung vom 22. Oktober 2025 Lightricks offizielle Website – LTX-2 Produktseite PR Newswire – Lightricks Releases LTX-2: The First Complete Open-Source AI Video Foundation Model, 23. Oktober 2025

    4K-Videos mit 50 Bildern pro Sekunde, direkt von der KI. Das israelische Unternehmen Lightricks stellt sein neues Modell LTX-2 vor. Es generiert nicht nur hochauflösende Clips, sondern liefert den passenden Ton gleich mit – und das als Open Source. Effizienz auf Heim-Grafikkarten Lightricks betont die Effizienz von LTX-2. Das Modell soll auf handelsüblichen Consumer-Grafikkarten laufen können. Damit zielt das Unternehmen direkt auf professionelle Kreative und Filmemacher, die nicht auf teure Rechenzentren angewiesen sein wollen. Ich persönlich vermute dahinter aber maximal die 5090 mit 32GB VRAM. Die Entwickler geben an, die Kosten im Vergleich zu Konkurrenzmodellen halbiert zu haben. LTX-2 erstellt Videos mit einer nativen 4K-Auflösung und bis zu 50 Bildern pro Sekunde. Die Clips können aktuell eine Länge von bis zu zehn Sekunden erreichen.

    Ein Modell für Video und Ton Die größte Besonderheit ist der multimodale Ansatz. LTX-2 generiert Video und Audio in einem einzigen, synchronisierten Prozess. Nutzer müssen also nicht mehr getrennte Werkzeuge für Bild und Ton verwenden. Lightricks kündigte an, dass LTX-2 vollständig Open Source sein wird. Das Unternehmen will damit Transparenz und eine breite Adaption in der Entwickler-Community fördern. Angriff auf die Großen Das Modell positioniert sich als ernstzunehmende Alternative zu den geschlossenen Systemen der Tech-Giganten. Konkret genannt werden OpenAIs Sora 2 und Googles Veo 3.1. Mit der Veröffentlichung von LTX-2 verschärft sich der Wettbewerb im Markt für KI-Videogenerierung deutlich. Der Fokus auf 4K, Effizienz und Open Source könnte den Druck auf die etablierten Konzerne erhöhen, ihre eigenen Modelle zugänglicher zu machen.