Schlagwort: V

HeyGen dominiert mit »Avatar V« die Benchmarks

Nano Banana

Kurzfassung
▾

Quellen
▾

HeyGen veröffentlicht das neue KI-Modell Avatar V für die Erstellung digitaler Zwillinge.
Die Software nutzt ein 15-sekündiges Video als Basis und verhindert so den typischen Identitätsverlust bei langen Laufzeiten.
Ein technischer Bericht zeigt, dass Avatar V Konkurrenten wie Kling O3 Pro und Veo 3.1 in direkten Vergleichen deutlich schlägt.
Das System erreicht in allen gemessenen Metriken, darunter Lippensynchronisation und Identitätswahrung, die Spitzenposition.

HeyGen: Avatar V – The next generation of your digital self

X: HeyGen Status Update

X: Joshua Xu Status Update

HeyGen veröffentlicht mit Avatar V ein völlig neues KI-Modell für digitale Zwillinge. Das System nutzt einen fortlaufenden Videokontext anstelle von Einzelfotos. In aktuellen Benchmarks deklassiert das KI-Modell namhafte Konkurrenten deutlich. Videokontext liefert stabile Identität Bisherige KI-Modelle generierten Avatare meistens auf Basis eines statischen Bildes. Avatar V wertet hingegen ein komplettes Kontextfenster aus einem simplen 15-sekündigen Webcam-Video aus. Das System erfasst so die natürliche Mimik, den Sprachrhythmus und komplexe Bewegungsmuster präzise. Ein selektiver Aufmerksamkeitsmechanismus filtert die besten Identitätssignale aus dem Material heraus. Das Modell blendet unscharfe oder schlecht beleuchtete Frames automatisch aus. So entsteht eine äußerst stabile Basis für dynamische Szenen mit wechselnden Kameraperspektiven. Diese Video-Architektur verhindert den berüchtigten »Identity Drift«. Bei älteren Systemen schwand die Ähnlichkeit zur Originalperson mit zunehmender Laufzeit. Avatar V hält die exakten Gesichtszüge auch bei Videos von über 30 Minuten Länge absolut stabil.

Twitter Beitrag – Cookies links unten aktivieren.

Introducing Avatar V. We’ve solved character consistency. Forever. Record yourself once for 15 seconds. From there, you can show up anywhere, in any look, and it still feels like you. Any photo becomes a video that looks, moves, and speaks like you, down to your mannerisms and… pic.twitter.com/qQsWlRoOkw — Joshua Xu (@joshua_xu_) April 8, 2026 Sieg im direkten Benchmark-Vergleich Ein aktueller technischer Bericht liefert konkrete Zahlen zur Leistungsfähigkeit des KI-Modells. Im etablierten MOS-Vergleich erreicht Avatar V den Spitzenwert von 4,98 Punkten bei der Identitätswahrung. Die phonemgenaue Lippensynchronisation sichert sich mit 4,69 Punkten ebenfalls den ersten Platz. Das System belegt in allen sechs gemessenen Kategorien die klare Spitzenposition. + Quelle: HeyGen Die technische Überlegenheit zeigt sich besonders in der direkten Gegenüberstellung mit anderen KI-Modellen. Im Duell mit Kling O3 Pro bevorzugen die Tester Avatar V in 69,6 Prozent der Fälle. Im Vergleich mit Veo 3.1 gewinnt das neue Modell sogar in 72,5 Prozent der Testläufe. Gegenüber OmniHuman 1.5 liegt die Siegquote bei beeindruckenden 85,7 Prozent. Anwender erhalten somit eine verlässliche Lösung für professionelle Videoproduktionen ohne teure Studioaufnahmen. + Quelle: HeyGen Anzeige
GPT 5 und Gemini 3 waren mal gut…

Nano Banana

Kurzfassung
▾

Quellen
▾

DeepSeek veröffentlicht mit V3.2 und der Speciale-Variante neue Open-Weights-Modelle, die dank effizienter „Sparse Attention“ und massivem Post-Training GPT-5-Niveau erreichen. In autonomen Agenten-Benchmarks und Coding-Aufgaben schlägt das Modell die US-Konkurrenz und löst über 70 Prozent komplexer GitHub-Issues. Die Speciale-Version erzielt Gold-Status bei Mathematik- und Informatik-Olympiaden, benötigt dafür aber deutlich mehr Rechenleistung als das Standardmodell. Dank Apache-2.0-Lizenz können Unternehmen die Modelle lokal betreiben, was volle Datenhoheit garantiert und die Abhängigkeit von Cloud-Abos beendet.

DeepSeek Official – DeepSeek-V3.2 Release

Hugging Face – DeepSeek-V3.2-Speciale Model Card

THE DECODER – Deepseek V3.2 soll GPT-5 und Gemini 3 Pro Konkurrenz machen

Stable Learn – DeepSeek-V3.2 Tech Report

Bloomberg – DeepSeek Debuts New AI Models

DeepSeek liefert mit der Version V3.2 und der Speciale-Variante ab heute eine Kampfansage an das Silicon Valley. Die neuen Modelle zielen darauf ab, die Leistung von GPT-5 zu erreichen und Googles Gemini 3 Pro im Bereich „Reasoning“ – also der logischen Schlussfolgerung – herauszufordern. Für deutsche Unternehmen besonders interessant: Das Modell erscheint unter der Apache-2.0-Lizenz als Open Weights, was den lokalen Betrieb ohne Datenabfluss ermöglicht. Architektur-Wechsel: Effizienz durch „Sparse Attention“ Die größte technische Neuerung betrifft die Art und Weise, wie das Modell Informationen verarbeitet. DeepSeek identifizierte die ineffiziente Verarbeitung langer Texte als eine Hauptschwäche bisheriger Open-Source-Modelle. Die Lösung nennen die Entwickler „DeepSeek Sparse Attention“ (DSA). Anstatt bei jeder Antwort den gesamten vorangegangenen Text erneut komplett zu prüfen, nutzt DSA ein Indexierungssystem. Das Modell bewertet vorab, welche Textbausteine für die aktuelle Antwort relevant sind, und ignoriert den Rest. Das senkt den Rechenaufwand massiv, ohne die Qualität der Antwort zu beeinträchtigen. Besonders bei langen Dokumentenanalysen macht sich dieser Effizienzsprung bemerkbar. Anzeige Strategiewechsel beim Training Auch beim Training geht der chinesische Anbieter neue Wege. Das Budget für das sogenannte Post-Training – die Phase, in der das Modell mittels menschlichem Feedback (Alignment) und Verstärkungslernen (Reinforcement Learning) feinjustiert wird – wurde drastisch erhöht. Flossen früher nur rund ein Prozent der Mittel in diesen Schritt, sind es bei V3.2 über zehn Prozent der gesamten Trainingskosten. Um diese Qualität zu erreichen, trainierte DeepSeek das System in über 4.400 synthetischen Aufgabenumgebungen und nutzte spezialisierte „Lehrer-Modelle“ für Mathematik und Programmierung, um hochwertige Trainingsdaten zu generieren. Benchmarks: Stark bei Agenten, knapp hinter Gemini In den harten Zahlen zeigt sich ein differenziertes Bild. Bei mathematischen Tests wie dem AIME 2025 erreicht V3.2 mit 93,1 Prozent fast das Niveau von GPT-5 (High), muss sich aber Googles Gemini 3 Pro (95,0 Prozent) geschlagen geben. Anders sieht es aus, wenn das Modell „arbeiten“ muss. In praktischen Szenarien, in denen die KI als autonomer Agent agiert, zieht DeepSeek vorbei. Im „SWE Multilingual“-Benchmark, der echte GitHub-Probleme simuliert, löst V3.2 beeindruckende 70,2 Prozent der Aufgaben. GPT-5 kommt hier nur auf 55,3 Prozent. Das macht das Modell besonders für Entwickler attraktiv, die KI-Agenten für komplexe Software-Tasks einsetzen wollen. + Quelle: Deepseek Speciale-Edition: Gold-Niveau mit hohem Verbrauch Parallel zum Allrounder erscheint „DeepSeek-V3.2-Speciale“. Diese Version operiert mit gelockerten Beschränkungen für die Länge der Gedankenketten (Chain-of-Thought). Das Resultat ist extreme Präzision: Bei der Internationalen Informatik-Olympiade 2025 erreichte das Modell Gold-Niveau. Dieser Scharfsinn hat jedoch seinen Preis. Das Speciale-Modell verbraucht für die Lösung komplexer Probleme im Schnitt 77.000 Token, während Konkurrent Gemini 3 Pro ähnliche Aufgaben mit 22.000 Token bewältigt. Wegen dieser Latenz und der höheren Kosten empfiehlt DeepSeek für den Standard-Einsatz das effizientere V3.2-Hauptmodell. Fazit: Echte Konkurrenz für US-Abos DeepSeek gibt offen zu, dass die Wissensbreite noch nicht ganz an die US-Vorbilder heranreicht. Dennoch ist V3.2, insbesondere durch die Apache-Lizenz und die starke Agenten-Performance, eine ernstzunehmende Alternative. Es erhöht den Druck auf OpenAI massiv, da Entwickler nun eine kostenlose, lokal betreibbare Option haben, die in der Praxis oft genauso gut funktioniert wie die teuren Bezahl-Dienste.
Midjourney startet Style Explorer V1 für schnelle Looks

Midjourney startet Style Explorer V1 für schnelle Looks Der V1-Start bringt eine offizielle Oberfläche zum Browsen, Testen und Merken von Stilcodes. Ideal für Kampagnen, Thumbnails und schnelle Mood-Boards. Kurzfassung | Andreas Becker, 06.09.25
Midjourney | All-AI.de EINLEITUNG Midjourney öffnet mit dem neuen „Style Explorer V1“ eine direkte Abkürzung zum perfekten Look. Stile lassen sich jetzt durchstöbern, liken und sofort mit eigenen Prompts ausprobieren. Hinter jedem Kachelbild steckt ein SREF-Code – eine Art Koordinatensystem im Stil-Universum. Dazu kommt eine Suchfunktion, die selbst mit vagen Begriffen wie „photographic“ oder „anime“ etwas Passendes findet. NEWS Ein Klick, ein Stil, ein Bild Der neue Style Explorer macht genau das, was viele schon lange vermisst haben: Er visualisiert verschiedene Bildstile als kleine Vorschau-Kacheln. Wer einen Stil spannend findet, klickt auf „Try Style“ – und schon wird der eigene Prompt mit dieser Optik neu gerendert. Ein Like speichert den Stil für später. Das Ganze funktioniert direkt im Browser, ohne dass man sich um die genaue Prompt-Formulierung kümmern muss. Schnell ausprobieren, vergleichen, abspeichern – der Explorer richtet sich vor allem an Nutzer, die regelmäßig ähnliche Looks brauchen. Ob Kampagne, Thumbnail oder Social Post: Mit wenigen Klicks entstehen konsistente Ergebnisse, die sich wiederverwenden lassen. + Quelle: Midjourney – Styles Oberfläche Der Code hinter dem Look Jeder Stil im Explorer basiert auf einem sogenannten SREF-Code. Diese Zahlenkombination beschreibt den visuellen Charakter eines Bildes – Farbstimmung, Details, Kontraste. Bisher kursierten viele dieser Codes in Foren und auf Community-Webseiten. Jetzt bringt Midjourney sie direkt ins eigene Interface. Die neue Funktion ist damit mehr als nur ein nettes Extra. Sie macht es deutlich leichter, kreative Prozesse zu beschleunigen. Wer bisher viel Zeit mit Feintuning verbracht hat, bekommt nun eine visuelle Auswahl – inklusive sofortiger Vorschau. + Quelle: Midjourney Suchen, finden, behalten Ein weiterer Pluspunkt: die Fuzzy Search. Sie erlaubt es, nach Begriffen wie „comic“, „realistic“ oder „dreamy“ zu suchen – selbst wenn diese nicht exakt im System hinterlegt sind. So tauchen passende SREF-Stile auf, ohne dass man genaue Namen kennen muss. Sortieroptionen wie „Popular“ oder „Random“ laden zum Entdecken ein. Midjourney führt den Style Explorer als Version 1 ein – und lässt damit viel Raum für Weiterentwicklung. Schon jetzt wird deutlich: Das Tool spart Zeit, bringt Struktur in die kreative Arbeit und macht den Weg zum Wunschbild ein ganzes Stück kürzer. + Quelle: Midjourney DEIN VORTEIL – DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
Midjourney startet den „Style Explorer V1“ mit klickbaren Stil-Kacheln.
„Try Style“ rendert den eigenen Prompt sofort im gewählten Look.
Fuzzy-Suche und Likes erleichtern Finden und Speichern von SREF-Codes.
Das Feature beschleunigt Workflows und schafft konsistente Ästhetik.
QUELLEN
Midjourney Updates: Style Explorer V1
Midjourney Docs: Style Reference
Midjourney Docs: Website Overview
Midjourney (X): Launch-Ankündigung
Community-Ressource: sref-midjourney.com
Deepseek V3.1: Mehr Leistung, weniger Kosten

Deepseek V3.1: Mehr Leistung, weniger Kosten Das Hybridmodell überzeugt mit 128k Kontext und günstigeren Preisen als GPT-5. Ist dies der neue Standard für KI-Projekte? Kurzfassung | Andreas Becker, 21.08.25
gpt-image-1 | All-AI.de EINLEITUNG Mit dem neuen Modell V3.1 zieht DeepSeek nach: Zum ersten Mal lässt sich zwischen zwei Betriebsmodi umschalten – je nachdem, ob komplexes Denken oder schnelle Antworten gefragt sind. Die hybride Architektur passt zur wachsenden Bedeutung von KI-Agenten. Gleichzeitig bleibt Deepseek seiner Linie treu: viel Leistung, niedriger Preis. NEWS Zwei Modi, flexibel einsetzbar V3.1 arbeitet wahlweise im Think- oder im Non-Think-Modus. Der Think-Modus ist auf logisches Schlussfolgern und den Einsatz von Werkzeugen ausgelegt. Der Non-Think-Modus dagegen kümmert sich effizient um einfachere Aufgaben. Beide Modi teilen sich ein großes Kontextfenster von 128.000 Tokens. Die Auswahl erfolgt per Schalter im Deepseek-Chat oder über unterschiedliche API-Endpunkte. Aktiviert wird der Denkmodus über spezielle Prompt-Tokens. Diese Trennung macht das Modell flexibel: Wer schnelle Antworten braucht, spart Rechenleistung. Wer präzise Analysen will, bekommt Zugriff auf Agenten, Tool-Calls und mehrstufige Abläufe. Entwicklern gibt das mehr Kontrolle – sowohl technisch als auch finanziell.. + + Quelle: Deepseek Längere Kontexte, gezieltes Training Im Vergleich zum Vorgänger hat Deepseek V3.1 mit 840 Milliarden zusätzlichen Tokens deutlich aufgestockt. Das Training wurde in zwei Phasen unterteilt: eine breite 32k-Phase und eine verlängerte 128k-Phase. Dadurch kann das Modell längere Kontexte besser verstehen – zum Beispiel ganze Codebasen oder komplexe Suchanfragen. In Benchmarks wie SWE-Bench oder Terminal-Bench zeigt sich das deutlich. Besonders in Code- und Logikaufgaben schneidet V3.1 besser ab als das frühere Reasoning-Modell R1. Der Think-Modus liefert zudem schnellere und präzisere Antworten als die bisherige Version R1-0528. Das macht das Modell vor allem für Agenten-basierte Workflows attraktiv. + Quelle: DeepSeek Günstiger als die Konkurrenz Ab dem 5. September 2025 gelten neue Preise. Eingaben kosten bei Cache-Treffer 0,07 US-Dollar pro Million Tokens, bei Cache-Fehlschlag 0,56 US-Dollar. Für Ausgaben werden 1,68 US-Dollar fällig. Zum Vergleich: OpenAI verlangt für GPT-5 rund 10 Dollar pro Million Tokens – Deepseek bleibt also deutlich günstiger. Für Entwickler bedeutet das: Agenten-Logik kann kosteneffizient getestet und skaliert werden. Das große Kontextfenster sorgt dafür, dass auch aufwändige Aufgaben nicht unnötig teuer werden. Die Idee, Denkaufwand nur bei Bedarf zu aktivieren, trifft den Nerv aktueller Anwendungsfälle. + Quelle: DeepSeek Offen und anschlussfähig V3.1 ist unter MIT-Lizenz auf Hugging Face verfügbar. Das Modell kann direkt über zwei spezialisierte API-Endpunkte genutzt werden. Deepseek unterstützt außerdem das Format der Anthropic-API und testet „Strict Function Calling“ als neue Option. Ziel ist, die Integration in bestehende Systeme so einfach wie möglich zu machen – ob für Forschung oder Produkte. DEIN VORTEIL – DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
Deepseek V3.1 bringt ein hybrides Konzept mit zwei Modi: schnelles Antworten oder tiefes logisches Denken.
Das Modell bietet ein großes Kontextfenster von 128k Tokens und zeigt starke Benchmark-Ergebnisse.
Mit deutlich niedrigeren Preisen als GPT-5 richtet es sich besonders an Entwickler und Agenten-Workflows.
Über Hugging Face und offene APIs ist V3.1 leicht integrierbar und flexibel nutzbar.
QUELLEN
THE DECODER
DeepSeek API Docs (Release)
DeepSeek API Docs (Pricing)
Hugging Face
Reuters

Schlagwort: V

HeyGen dominiert mit »Avatar V« die Benchmarks

GPT 5 und Gemini 3 waren mal gut…

Midjourney startet Style Explorer V1 für schnelle Looks

Deepseek V3.1: Mehr Leistung, weniger Kosten