Schlagwort: Modell

  • Google bringt KI-Musikgenerator Lyria 3 in die Gemini-App

    Google bringt mit Lyria 3 einen KI-Musikgenerator in die Gemini-App. Das Modell erstellt 30-sekündige Tracks mit Gesang und Lyrics aus Textbeschreibungen oder Fotos.

    Der Artikel Google bringt KI-Musikgenerator Lyria 3 in die Gemini-App erschien zuerst auf The Decoder.

  • Anthropic veröffentlicht Claude Sonnet 4.6 mit besserer Websuche und fragwürdigem Geschäftssinn

    Anthropic veröffentlicht Claude Sonnet 4.6 mit Verbesserungen bei Coding, Computer Use und Websuche. Das Modell soll in vielen Aufgaben an die teurere Opus-Klasse heranreichen. Eine neue Filtertechnik für die Websuche spart zudem Tokens. In einem Geschäftssimulations-Benchmark fällt das Modell allerdings durch aggressive Taktiken auf.

    Der Artikel Anthropic veröffentlicht Claude Sonnet 4.6 mit besserer Websuche und fragwürdigem Geschäftssinn erschien zuerst auf The Decoder.

  • Claude Sonnet 4.6 schlägt die starke Konkurrenz im Büro

    Ein Kunstwerk von einem Kopf aus Neuronen

    Nano Banana

    Kurzfassung

    Quellen

    Anthropic hat das neue KI-Modell Claude Sonnet 4.6 veröffentlicht, das in einer Beta-Phase mit einem massiven Kontextfenster von einer Million Token aufwartet.
    Das Modell punktet mit stark verbesserten agentischen Fähigkeiten und bedient Desktop-Oberflächen wesentlich präziser als sein Vorgänger.
    In Benchmark-Tests für die selbstständige Programmierung und die komplexe Websuche erzielt die KI bemerkenswerte Leistungssteigerungen.
    Auch bei der langfristigen Finanzplanung in Simulationen agiert Sonnet 4.6 deutlich profitabler und strategischer als noch Version 4.5.

    Anthropic: Claude Sonnet 4.6

    Anthropic: Claude Sonnet 4.6 System Card

    Anthropic: Claude Sonnet 4.6 Produktseite

    Anthropic hat das KI-Modell Claude Sonnet 4.6 veröffentlicht und integriert in einer Beta-Phase ein erweitertes Kontextfenster von einer Million Token. Das Update liefert messbare Leistungssteigerungen bei der autonomen Computersteuerung sowie der Code-Generierung. Der Preis bleibt dabei mit $3/$15 pro Million Token stabil.

    Autonome Computersteuerung im Detail Die Entwickler legen bei der neuen Version einen klaren Schwerpunkt auf sogenannte agentische Fähigkeiten. Das Modell kann Desktop-Oberflächen steuern, Klicks ausführen und Programme bedienen. Laut den veröffentlichten Benchmarks erreicht Sonnet 4.6 im OSWorld-Verified-Test einen Wert von 72,5 Prozent. + Quelle: Anthropic Zum Vergleich lag der Vorgänger Sonnet 4.5 im Oktober 2025 noch bei 61,4 Prozent. Diese kontinuierliche Steigerung verdeutlicht, dass die KI zunehmend fehlerfrei mit grafischen Benutzeroberflächen interagiert. Ein Blick auf die direkte Konkurrenz zeigt ein enges Feld. Bei typischen Büroaufgaben, gemessen im GDPval-AA Elo, übertrifft Sonnet 4.6 mit einem Wert von 1633 sowohl Gemini 3 Pro als auch GPT-5.2. Lediglich bei der agentischen Terminal-Programmierung bleibt das neue Modell mit 59,1 Prozent hinter den Spitzenwerten der Mitbewerber zurück. + Quelle: Anthropic Programmierung und Informationsbeschaffung Auch bei der reinen Softwareentwicklung verzeichnet das Modell Fortschritte. Im anerkannten SWE-bench Verified, der die Lösung echter GitHub-Probleme misst, erzielt Sonnet 4.6 nun 79,6 Prozent und platziert sich damit knapp hinter dem größeren Modell Opus 4.6. Die künstliche Intelligenz analysiert Code-Strukturen und schreibt selbstständig funktionierende Patches. Ein großer Sprung zeigt sich bei der agentischen Websuche. Der BrowseComp-Score klettert im Vergleich zur Version 4.5 von 43,9 Prozent auf 74,7 Prozent. Das bedeutet, dass das Modell komplexe Recherchen im Internet deutlich zielgerichteter und mit weniger Abbrüchen durchführt. Anzeige Langfristige Planung in Simulationen Die Fähigkeit zur langfristigen Handlungsplanung wurde unter anderem in der Vending-Bench Arena getestet. In dieser Simulation verwalten die Modelle ein virtuelles Budget über einen Zeitraum von 350 Tagen. Sonnet 4.6 agiert hier wesentlich profitabler als die Vorversion. Während das Vorgängermodell den Kontostand nach der Testlaufzeit auf etwa 2.000 US-Dollar anhebt, erwirtschaftet Sonnet 4.6 durch strategischere Entscheidungen ein Endguthaben von über 5.600 US-Dollar. Diese Diskrepanz entsteht durch die verbesserte Fehlerkorrektur bei aufeinanderfolgenden Transaktionen. + Quelle: Anthropic Das erweiterte Kontextfenster von einer Million Token befindet sich aktuell noch in einer geschlossenen Testphase. Claude Sonnet 4.6 steht ab sofort über die API sowie für Nutzer der kostenlosen und der Pro-Stufe zur Verfügung.

  • Qwen3.5 von Alibaba: Gigantisches Sprachmodell für lokale KI-Agenten

    Ein KI-Agenten-Bär programmiert

    Nano Banana

    Kurzfassung

    Quellen

    Alibaba hat mit Qwen3.5-397B-A17B ein gewaltiges Open-Weight-Modell für autonome KI-Agenten veröffentlicht.
    Die Software verarbeitet Texte, Bilder und hochauflösende Videos nativ in einem einzigen neuronalen Netz.
    Dank der effizienten Mixture-of-Experts-Architektur bleiben die reinen Rechenanforderungen während der Texterstellung im Rahmen.
    In ersten Benchmarks schließt das lizenzfreie System eindrucksvoll zu führenden geschlossenen Modellen auf.

    Offizieller Blog: Qwen3.5: Towards Native Multimodal Agents

    GitHub Qwen3.5

    Alibaba veröffentlicht Qwen3.5: Erstes Open-Weight-Modell mit Fokus auf KI-Agenten Alibaba hat mit Qwen3.5-397B-A17B das erste Open-Weight-Modell der neuen Generation unter der Apache-2.0-Lizenz veröffentlicht. Das multimodale Sprachmodell zielt speziell auf den Einsatz als autonomer KI-Agent ab und verarbeitet Text sowie Medien nativ. Architektur und Hardware-Bedarf Das Modell Qwen3.5-397B-A17B ist ab sofort frei verfügbar. Alibaba stellt die Gewichte unter der permissiven Apache-2.0-Lizenz im Netz bereit. Entwickler können das Open-Weight-Modell dadurch kommerziell ohne strenge Einschränkungen in eigenen Projekten nutzen. Technisch handelt es sich um ein fortschrittliches Mixture-of-Experts-Modell. Das System wählt für jede spezifische Aufgabe nur spezialisierte Teilnetze aus. Von den insgesamt 397 Milliarden Parametern sind bei einer Abfrage lediglich 17 Milliarden aktiv. Dieser Aufbau senkt den Rechenaufwand während der Texterstellung ganz erheblich. Der Speicherbedarf bleibt aufgrund der gewaltigen Gesamtgröße jedoch enorm hoch. Je nach Komprimierung (Quantisierung) belegt das Modell geschätzt 200 bis über 400 Gigabyte an Arbeits- oder Grafikspeicher. Nutzer benötigen für den lokalen Betrieb daher teure und extrem leistungsstarke Server-Hardware. In den nächsten Tagen und Wochen sollen aber auch noch deutlich kleinere Modelle erscheinen. Anzeige Native Multimodalität für Agenten Eine Besonderheit der neuen Qwen3.5-Serie ist die native Multimodalität. Das Modell verarbeitet verschiedene Datentypen direkt in einem einzigen neuronalen Netz. Dazu gehören einfache Texte, Bilder, lange Dokumente und hochauflösende Videos. Frühere KI-Systeme schalteten oft separate Modelle für die Bildverarbeitung und Textverarbeitung hintereinander. Dieser integrierte Ansatz reduziert typische Informationsverluste zwischen den einzelnen Modulen. Das System versteht den Kontext von verschachtelten Videoinhalten dadurch wesentlich präziser. Die Entwickler rücken den Einsatz als autonomen KI-Agenten stark in den Fokus. Das Modell soll künftig selbstständig im Internet recherchieren und lokale Dateien fehlerfrei analysieren. Die native Integration aller Medientypen bildet dafür die notwendige technische Basis. + Quelle: Alibaba Skalierung durch Trainingsumgebungen Alibaba zeigt in einer veröffentlichten Grafik den genauen Zusammenhang zwischen Modellleistung und Trainingsumgebungen. Die Entwickler haben die Menge an simulierten Umgebungen während des Trainings stark erhöht. Sie skalierten die Anzahl der Szenarien auf bis zu 15.000 Umgebungen. Eine Umgebung stellt dabei ein spezifisches Szenario in einem Computersystem dar. Darin trainiert das Modell konkrete Handlungen und komplexe Interaktionen mit Software. Die vorliegenden Daten belegen eine klare Leistungssteigerung bei zunehmender Anzahl dieser Trainingsszenarien. Die Modellvariante mit aktivierter Denk-Funktion erreicht bei 15.000 Umgebungen eine durchschnittliche Platzierung von 3,5. Damit schließt Qwen3.5-397B-A17B zu sehr starken proprietären Modellen wie Claude-Opus 4.5 auf. Die Standardversion ohne diese spezielle Denk-Funktion landet im direkten Vergleich auf dem siebten Rang. Sie wurde im Vorfeld mit knapp 12.000 Umgebungen umfassend trainiert. Der beobachtete Sprung verdeutlicht den positiven Effekt des zusätzlichen Rechenaufwands für die Planung. + Quelle: Alibaba Benchmarks zeigen beeindruckende Leistung Ein genauer Blick auf die Benchmark-Ergebnisse offenbart ein äußerst starkes Bild für die Nutzer. Bei der reinen Befehlsausführung im bekannten IFBench führt das neue Alibaba-Modell. Es setzt sich dort mit 76,5 Punkten an die Spitze des Testfeldes. + Quelle: Alibaba Auch bei der agentenbasierten Websuche schneidet das große Modell sehr gut ab. Im etablierten Test BrowseComp erreicht es überzeugende 78,6 Punkte. Die komplexe Dokumentenanalyse im OmniDocBench v1.5 entscheidet Qwen mit 90,8 Punkten ebenfalls eindeutig für sich. Mit dieser Punktzahl lässt es namhafte Konkurrenten wie GPT-5.2 und Claude Opus 4.5 hinter sich. In anderen Disziplinen zeigen sich nur sehr kleine, verzeihliche Rückstände auf die teure Konkurrenz. Bei komplexen Programmieraufgaben im SWE-bench Verified erreicht das Modell beachtliche 76,4 Punkte. Hier führen die geschlossenen Modelle Claude Opus 4.5 und GPT-5.2 das restliche Feld zwar an. Für ein kostenloses Open-Weight-Modell ist dieser Wert dennoch ein großer Erfolg. Ein ähnliches Bild zeigt sich beim logischen Schließen im anspruchsvollen Test GPQA Diamond. Dort liegt das System mit 88,4 Punkten nur denkbar knapp hinter dem proprietären GPT-5.2. Bei der visuellen Analyse im MMMU-Pro liefert das Sprachmodell ebenfalls extrem starke Werte. Es ordnet sich mit exzellenten 79,0 Punkten nur minimal hinter dem Platzhirsch Gemini 3 Pro ein. Die Entwickler liefern mit dem Release ein beeindruckend starkes Gesamtpaket für den lokalen Agenten-Einsatz. Anzeige

  • Nvidia PersonaPlex-7B: KI spricht und hört gleichzeitig

    Ein Nvidia Roboter spricht mit einem Menschen

    Nano Banana

    Kurzfassung

    Quellen

    Nvidia hat mit PersonaPlex-7B-v1 ein neues Open-Source-Sprachmodell für flüssige Dialoge veröffentlicht. Die Software nutzt eine Full-Duplex-Architektur, um gleichzeitig zuzuhören und zu sprechen. Dadurch reagiert die KI in Echtzeit auf Unterbrechungen ohne störende Gesprächspausen. Das kompakte Modell lässt sich lokal auf eigener Hardware ausführen und flexibel für verschiedene Rollen anpassen.

    Hugging Face – nvidia/personaplex-7b-v1 (Model Card)

    NVIDIA Research – PersonaPlex: Natural Conversational AI With Any Role and Voice

    Nvidia hat mit PersonaPlex-7B-v1 ein neues Open-Source-Sprachmodell veröffentlicht, das zeitgleich zuhören und sprechen kann. Die auf sieben Milliarden Parametern basierende KI ermöglicht natürliche Dialoge ohne spürbare Verzögerungen und reagiert in Echtzeit auf Unterbrechungen. Echte zeitgleiche Kommunikation Bisherige Sprachassistenten arbeiten meist nacheinander. Der Nutzer spricht, das System verarbeitet die Eingabe und antwortet erst danach. Dieser Vorgang kostet Zeit und sorgt für unnatürliche Gesprächspausen. PersonaPlex nutzt stattdessen eine sogenannte Full-Duplex-Architektur. Das Modell verarbeitet Audioeingaben kontinuierlich und parallel zur eigenen Sprachausgabe. Fällt der Nutzer der KI ins Wort, reagiert diese sofort und passt ihre Antwort dem neuen Kontext an.

    Twitter Beitrag – Cookies links unten aktivieren.

    NVIDIA just dropped PersonaPlex-7B 🤯 A full-duplex voice model that listens and talks at the same time.No pauses. No turn-taking. Real conversation. 100% open source. Free.Voice AI just leveled up.https://t.co/YfzFQfBzMS pic.twitter.com/bVwJ5EFJFB — Hugging Models (@HuggingModels) February 15, 2026 Architektur und Rollenspiel Technisch basiert Nvidias Lösung auf der bekannten Moshi-Architektur. Das System verarbeitet Audiosignale direkt mit einer Abtastrate von 24 Kilohertz, ohne sie vorher zwingend in Text umzuwandeln. Für das Training nutzte der Hersteller eine Mischung aus echten menschlichen Dialogen und synthetisch erzeugten Rollenspielen. Das Modell verwendet sogenannte Hybrid-Prompts für die Konfiguration. Diese Textvorgaben definieren sowohl die akustische Stimme als auch die inhaltliche Rolle der KI. Laut Datenblatt lassen sich so flexibel verschiedene Charaktere wie Support-Agenten oder Fachberater erstellen. In der Praxis muss sich zeigen, wie stabil das System lange Gesprächsverläufe meistert. Bei Benchmark-Tests zur Reaktionszeit und bei gezielten Unterbrechungen erreicht die Software jedoch bereits Spitzenwerte. Ein direkter Sprecherwechsel erfolgt dort oft in Bruchteilen einer Sekunde. Anzeige Lokal ausführbar und offen Nvidia stellt die Modellgewichte und den Programmcode unter offenen Lizenzen bereit. Entwickler finden die entsprechenden Dateien auf Plattformen wie Hugging Face und GitHub. Dadurch lässt sich die Software leicht anpassen und in bestehende Projekte integrieren. Mit sieben Milliarden Parametern ist das Sprachmodell verhältnismäßig kompakt gebaut. Es lässt sich daher auf lokaler Hardware mit ausreichend Grafikspeicher betreiben. Das schont die Privatsphäre, da keine sensiblen Sprachaufzeichnungen auf externe Server fließen. Dieser lokale Ansatz macht die Technologie zu einer interessanten Option für datenschutzkritische Anwendungen.

  • Seedance 3.0 Leaks: KI-Videos mit zehn Minuten Länge?

    Eine Filmrolle mit mathematischen Formeln

    Nano Banana

    Kurzfassung

    Quellen

    Geleakte Dokumente zeigen erste Details zum kommenden KI-Videogenerator Seedance 3.0 von ByteDance.
    Das Modell soll durchgängig konsistente Videos mit einer Länge von bis zu zehn Minuten erzeugen.
    Eine neue Vektorraum-Architektur speichert dafür Figuren und Umgebungen ab, um visuelle Fehler bei Szenenwechseln zu vermeiden.
    Zudem deuten die Berichte auf eine direkte Integration von lippensynchroner, mehrsprachiger Sprachausgabe hin.

    Auf X: Seedance 3.0 Leak

    Während Seedance 2.0 aktuell den Markt für KI-generierte Videos dominiert, zeigen Leaks bereits interessante Informationen zum Nachfolger. Seedance 3.0 soll laut unbestätigten Berichten zusammenhängende Clips mit einer Spieldauer von über zehn Minuten erzeugen. Architektur für lange Laufzeiten Die Verlängerung der Generierungsdauer fordert enorm viel Rechenleistung. Bei langen Laufzeiten verlieren visuelle Elemente in generierten Videos oft ihre Form. ByteDance testet laut Insidern dafür eine neue Architektur namens „Narrative Memory Chain“. Diese Technik legt spezifische Merkmale von Figuren und Umgebungen in einem persistenten Vektorraum ab. Ein solcher Vektorraum wandelt Bildeigenschaften in mehrdimensionale mathematische Koordinaten um. Das System berechnet räumliche und zeitliche Zusammenhänge dadurch exakter. Das Modell ruft diese Referenzdaten während der gesamten Videoerstellung kontinuierlich ab. Charaktere und physikalische Regeln bleiben so auch bei dynamischen Szenenwechseln über zehn Minuten hinweg erhalten.

    Twitter Beitrag – Cookies links unten aktivieren.

    Seedance 3.0 specs just leaked. If this is accurate, this isn’t another incremental AI video upgrade. It’s a structural shock to Hollywood. • 10 to 18 minute coherent films in one pass• Persistent narrative memory across scenes• Native multi language voice with emotional… https://t.co/TSo0iZlPLd — VraserX e/acc (@VraserX) February 14, 2026 Integrierte Audiosynchronisation Zusätzlich deuten die Leaks auf eine direkte Verarbeitung von Audio hin. Das System berechnet neben dem Bildmaterial zeitgleich passende Stimmen in verschiedenen Sprachen. Die Lippenbewegungen der generierten Personen passen sich dem Ton an. In der Praxis muss das Modell allerdings erst beweisen, wie gut diese Funktionen arbeiten. Die benötigte Rechenleistung wirft Fragen bezüglich der wirtschaftlichen Nutzbarkeit für Endanwender auf. Anzeige Kontroverse um die aktuelle Version Die sehr frühen Leaks über den Nachfolger folgen kurz auf den Marktstart von Seedance 2.0. Diese Software erzeugt Clips auf einem Niveau, welches wir bisher nicht gesehen haben. Das Modell setzt Texteingaben sehr genau um und stellt flüssige Bewegungen physikalisch korrekt dar. Filmstudios kritisieren die hohe Produktionsqualität und fürchten Urheberrechtsverletzungen durch unlizenzierte Trainingsdaten. Sicherheitsexperten warnen zudem vor der täuschend echten Darstellung menschlicher Gesichter. ByteDance integriert als Schutzmaßnahme unsichtbare Metadaten in die Videodateien, damit Algorithmen die synthetischen Medien erkennen.

  • Seedream 5.0 Lite bringt Echtzeit-Suche in die Bildgenerierung

    Eine Frau auf dem Bild

    Seedream 5 Lite

    Kurzfassung

    Quellen

    ByteDance hat den neuen KI-Bildgenerator Seedream 5.0 Lite vorgestellt, der semantisches Textverständnis mit einer Live-Internetanbindung kombiniert.
    Das Modell verarbeitet komplexe Prompts durch tiefgehendes logisches Schließen präziser als herkömmliche Lösungen.
    Dank der integrierten Echtzeit-Websuche kann die Software auch aktuelle Ereignisse und kurzlebige Trends visuell umsetzen.
    Offizielle Benchmarks belegen zudem signifikante Leistungssteigerungen bei der exakten Befehlsausführung und der detaillierten Bildbearbeitung.

    ByteDance Seed: Deeper Thinking, More Accurate Generation | Introducing Seedream 5.0 Lite

    ByteDance Seed: Seedream 5.0 Lite (Modellseite)

    Der chinesische Technologiekonzern ByteDance hat mit Seedream 5.0 Lite ein neues multimodales Modell zur Bildgenerierung vorgestellt. Die Software verknüpft ein erweitertes semantisches Sprachverständnis mit einer Live-Anbindung an das Internet, um komplexe Textvorgaben präziser in Bilder umzusetzen. Anzeige Semantik statt reiner Pixelberechnung Bisherige Bildgeneratoren scheitern oft an detaillierten Anweisungen mit vielen verschiedenen Variablen. ByteDance implementiert in der neuen Version daher eine erweiterte semantische Verarbeitung, die der Hersteller selbst als tiefgehendes Denken („Deep Thinking“) vermarktet. Das Modell verarbeitet Textbefehle nicht nur auf Basis statischer Trainingsdaten, sondern analysiert die strukturellen Zusammenhänge innerhalb der geforderten Bildkomposition. Laut Datenblatt identifiziert die Software Objekte wie unterschiedliche Pflanzenarten selbstständig, zählt diese und ordnet sie in separaten Bildbereichen exakt an. + Quelle: bytedance

    Kitchen Helper Text

    Copy

    A professional-looking mind map for a ‚Kitchen Helper‘ campaign for small home appliances. The central node is ‚Kitchen Helper Campaign‘. Branching out are three main categories with hand-drawn icons: ‚Cooking Appliances‘, ‚Beverage Makers‘, and ‚Food Prep Tools‘. Each category has three sub-branches listing key product features (e.g., Cooking Appliances: Precise Control, Versatile Functions, Easy Clean-up). The entire mind map is well-organized, clean, and visually appealing.

    Prompt vollständig anzeigen

    Generierung mit aktuellen Netzdaten Neben dem besseren Textverständnis integriert ByteDance einen direkten Abruf von aktuellen Suchmaschinendaten. Die sogenannte „Real-time Retrieval Augmentation“ ermöglicht es dem Modell, während des Erstellungsprozesses unmittelbar auf Informationen aus dem Netz zuzugreifen. Dadurch bildet die Software zeitkritische Ereignisse, kurzlebige Modetrends oder neue Produkte visuell ab, auch wenn diese nicht im ursprünglichen Trainingsdatensatz enthalten waren. In der Praxis muss sich jedoch noch zeigen, wie fehlerfrei das System mit widersprüchlichen oder ungenauen Informationen aus dem Web umgeht. + Quelle: bytedance

    Städte Live

    Copy

    A high-concept composite photograph, flawlessly stitched from five vertical panoramic strips into one 8K resolution image. Each strip shows a city on February 4, 2026, with real-time weather and lighting.

    Far left (Beijing): Bird’s Nest Stadium under the afternoon sun.

    Left-center (New York): Manhattan skyscrapers under a clear morning sky.

    Center (Tokyo): Tokyo Tower illuminated at night.

    Right-center (Sydney): The Opera House during late afternoon.

    Far right (Madrid): San Francisco el Grande Cathedral at midday.
    The entire composition is unified by cinematic color grading, presenting a photorealistic masterpiece with high contrast.

    Prompt vollständig anzeigen

    Benchmarks dokumentieren Leistungszuwachs Die vom Hersteller veröffentlichten Radar-Diagramme zeigen messbare Leistungssteigerungen gegenüber der Vorgängerversion 4.5. Bereits dieses ältere Modell belegte in gängigen Ranglisten für die Text-zu-Bild-Generierung und Bildbearbeitung vordere Plätze. Die aktuellen Auswertungen weisen nun über alle Testdisziplinen hinweg einen höheren Gesamtwert (Overall Elo) auf. Besonders deutliche Verbesserungen verzeichnet Seedream 5.0 Lite in den Kategorien Wissensabruf („Knowledge & Reasoning“) und bei der exakten Befehlsumsetzung („Instruction Response“). + + Quelle: bytedance Präzise Steuerung bei der Bildbearbeitung Auch im Bereich der Bild-zu-Bild-Bearbeitung übertrifft die neue Version die bisherigen Ergebnisse, speziell bei der Aufwertung von Porträts und der Veränderung des Blickwinkels. ByteDance erweitert hierfür die nachträglichen Eingriffsmöglichkeiten für Anwender deutlich. Das Modell erlaubt eine dialogbasierte Bearbeitung über mehrere Stufen hinweg. Nutzer passen dabei spezifische Elemente über Kontrollpinsel nachträglich an, ohne das restliche Bild zu verändern. Erste externe Tests bescheinigen der Software eine hohe Leistung bei der exakten Umsetzung von strikten Bildvorgaben. Der Markt für KI-gestützte Bilderzeugung bleibt hart umkämpft. + + Quelle: bytedance

    Bildbearbeitung 1

    Copy

    A claymation-style café advertisement scene. Multiple tables in a cozy café, each with two clay figures sitting, drinking coffee, talking, and laughing animatedly. The entire scene has the handmade, textured look and feel of clay animation, like a warm, inviting commercial.

    Prompt vollständig anzeigen

  • TikTok fordert mit Seed 2.0 ChatGPT und Gemini heraus.

    Ein Drache programmiert Seed 2.0

    Nano Banana

    Kurzfassung

    Quellen

    ByteDance hat mit Seed 2.0 (Doubao 2.0) eine neue Generation großer KI-Sprachmodelle in den Varianten Pro, Lite und Mini veröffentlicht. Die Modelle zielen auf günstige Inferenzkosten ab und erreichen in Bereichen wie Programmierung und Mathematik Benchmark-Werte auf dem Niveau von GPT-5.2 und Gemini 3 Pro. Während die Pro-Version für komplexe, mehrstufige Logikaufgaben konzipiert ist, fokussiert sich das Mini-Modell auf hochfrequente Anfragen in Echtzeit. Spezielle Varianten wie Seed-Code sollen Entwickler künftig direkt in entsprechenden Programmierumgebungen bei der Arbeit unterstützen.

    Seed2.0 – ByteDance Seed (offizielle Modellseite)

    Seed2.0 Paper

    ByteDance hat mit Seed 2.0 eine neue Generation seiner großen Sprachmodelle veröffentlicht. Die Architektur erscheint in drei Varianten und verspricht Leistungsdaten auf dem Niveau aktueller Spitzenmodelle bei gleichzeitig drastisch gesunkenen Inferenzkosten. Anzeige Warum Seed 2.0 und Doubao 2.0 identisch sind Hinter den Bezeichnungen Seed 2.0 und Doubao 2.0 verbirgt sich exakt dieselbe technische Basis. Während ByteDance den Namen Doubao vorrangig für den chinesischen Heimatmarkt und die eigenen Endkunden-Anwendungen nutzt, richtet sich die Marke Seed an die internationale Entwickler-Community. Das Unternehmen reagiert mit der neuen Generation auf den Trend zu agentenbasierter KI, bei der Modelle komplexe, mehrstufige Arbeitsabläufe autonom abarbeiten. KI-Agenten sollen künftig selbstständig Recherchen im Internet durchführen, externe Daten auslesen oder Dokumente in strukturierte Tabellen überführen. Die Modellfamilie gliedert sich in die drei Abstufungen Pro, Lite und Mini. Diese Segmentierung ist branchenüblich und erlaubt es Entwicklern, je nach Anwendungsfall zwischen maximaler Leistung und minimaler Latenz zu wählen. Die Pro-Version zielt auf tiefgreifende Logik, die Lite-Version bildet den Allrounder für den Alltag, und die Mini-Version ist für hochfrequente Anfragen mit extrem kurzer Reaktionszeit konzipiert. Im direkten Vergleich zu Konkurrenten wie OpenAI, Google oder Anthropic positioniert sich ByteDance über eine sehr aggressive Preisgestaltung. Das Ziel ist es, den Markt für API-Schnittstellen durch geringe Hardwarekosten bei gleichzeitig hoher Rechenleistung zu dominieren. + Quelle: all-ai.de Seed 2.0 Pro: Architektur und Besonderheiten Das Spitzenmodell Seed 2.0 Pro ist für tiefe logische Schlussfolgerungen und die Ausführung langer Aufgabenketten konzipiert. Die Architektur ist laut dem veröffentlichten Bericht darauf ausgelegt, multimodale Eingaben effizienter zu verarbeiten als die Vorgängergeneration. Ein zentrales Merkmal ist die Fähigkeit zur Test-Time-Compute-Skalierung, bei der das Modell dynamisch mehr Rechenzeit aufwendet und mehrere Lösungswege intern bewertet, bevor es ein Ergebnis ausgibt. Ein Anwendungsbeispiel des Herstellers zeigt die multimodalen Fähigkeiten in Echtzeit. In einem Demonstrationsvideo wertet das Modell den Live-Feed einer Smartphone-Kamera aus, die eine Person beim Krafttraining im Fitnessstudio filmt. Die Software analysiert die Bewegungsabläufe, erkennt Fehlhaltungen und gibt über eine synthetische Sprachausgabe direkte Korrekturanweisungen, ähnlich einem menschlichen Trainer. In der Praxis muss sich zeigen, wie fehlerfrei diese Bildauswertung bei schlechten Lichtverhältnissen oder komplexen Übungen funktioniert. Quelle: ByteDance Ein weiteres Beispiel demonstriert die automatisierte Webentwicklung durch das Modell. Auf Basis einer groben Textbeschreibung generiert die KI-Schnittstelle nicht nur den zugrundeliegenden HTML- und CSS-Code, sondern erstellt ein vollständiges, visuell ansprechendes Seitenlayout. Der Algorithmus platziert dabei selbstständig Platzhalter für Bilder, strukturiert Navigationsmenüs und passt das Design an mobile Endgeräte an. Entwickler lagern damit zeitintensive Routineaufgaben aus, müssen den generierten Code jedoch zwingend auf Sicherheitslücken und Effizienz prüfen. Aus einem einfachen Prompt mit 3 Sätzen ist folgende Webseite voll funktionsfähig enstanden: + Quelle: bytedance Seed 2.0 Pro im Benchmark-Vergleich In den Disziplinen Programmierung und autonome Agenten ordnet sich Seed 2.0 Pro knapp hinter den absoluten Spitzenreitern ein. Beim SWE-Bench (Verified), der die Lösung echter Softwareprobleme misst, erreicht das Modell 76,5 Prozent und schlägt damit Googles Gemini 3 Pro (76,2 Prozent) hauchdünn, bleibt aber hinter GPT-5.2 (80,0 Prozent) zurück. Bei der Ausführung von Befehlsketten in Kommandozeilen-Umgebungen, abgebildet durch den Terminal-Benchmark, zeigt sich ein ähnliches Bild. Hier erzielt die ByteDance-KI solide 55,8 Prozent, muss sich jedoch sowohl Gemini 3 Pro (56,9 Prozent) als auch dem Spitzenreiter GPT-5.2 (62,4 Prozent) geschlagen geben. + Quelle: bytedance Bei allgemeinen Leistungstests für Naturwissenschaften und Mathematik liefert das Modell ein gemischtes, aber durchweg hohes Niveau. In der Disziplin Science (MMLU-Pro) erreicht Seed 2.0 Pro 87,0 Prozent und übertrifft damit GPT-5.2 (85,9 Prozent), wird jedoch von Gemini 3 Pro mit herausragenden 97,1 Prozent deutlich distanziert. Ein anderes Kräfteverhältnis zeigt sich bei anspruchsvollen Mathematik-Prüfungen wie dem AIME 2026. Dort positioniert sich das ByteDance-System mit 94,2 Prozent knapp vor Gemini 3 Pro (93,3 Prozent), während OpenAI mit 97,5 Prozent den Referenzwert in diesem Testfeld vorgibt. Auch sonst können die Benchmarks größtenteils überzeugen: + Quelle: bytedance Seed 2.0 Lite: Der Kompromiss aus Leistung und Kosten Die Lite-Variante fungiert als Standardmodell für die meisten kommerziellen Anwendungen. Sie bietet einen Mittelweg aus Verarbeitungsgeschwindigkeit und logischer Tiefe. ByteDance gibt an, dass Seed 2.0 Lite die Gesamtleistung des bisherigen Hauptmodells Doubao 1.8 übersteigt, dabei aber deutlich weniger Rechenressourcen für die Inferenz benötigt. Anzeige In den veröffentlichten Benchmarks zeigt das Lite-Modell ein differenziertes Leistungsbild, besonders bei visuell gestützten Aufgaben. Beim Test MathVista, der das Verständnis von Diagrammen und mathematischen Grafiken prüft, erreicht Seed 2.0 Lite starke 89,0 Prozent. Damit liegt die kleinere Architektur fast exakt auf dem Niveau der hauseigenen Pro-Version (89,8 Prozent) sowie von Googles Gemini 3 Pro (89,8 Prozent) und übertrifft das Konkurrenzmodell GPT-5.2 (83,1 Prozent) messbar. Diese Zahlen signalisieren, dass das Modell bei klar strukturierten mathematischen Mustern kaum an Präzision einbüßt. Bei komplexeren visuellen Logikrätseln, wie sie der Benchmark ARC-AGI-2-Image abfragt, sinkt die Genauigkeit erwartungsgemäß. Hier erzielt das Lite-Modell 28,3 Prozent und ordnet sich mit deutlichem Abstand hinter Seed 2.0 Pro (43,3 Prozent) und dem Spitzenreiter GPT-5.2 (54,4 Prozent) ein. Bemerkenswert ist in den Datensätzen jedoch, dass die ByteDance-KI in diesem spezifischen Testfeld das etablierte Gemini 3 Pro (21,5 Prozent) hinter sich lässt. Die Ergebnisse verdeutlichen, dass die Lite-Version für alltägliche Aufgaben ausreichend dimensioniert ist, bei tiefgreifender, mehrstufiger Bildlogik jedoch an ihre Systemgrenzen stößt. + Quelle: bytedance Seed 2.0 Mini und seine Benchmark-Ergebnisse Für Szenarien, in denen Millisekunden entscheiden, hat ByteDance das Seed 2.0 Mini entwickelt. Dieses Modell ist strikt auf geringe Latenz und hohe Parallelität getrimmt. Die Architektur zielt auf Echtzeit-Übersetzungen, einfache Klassifizierungsaufgaben und die blitzschnelle Autovervollständigung von Code oder Texten ab. Ein Blick auf die konkreten Leistungsdaten offenbart ein gemischtes Bild: Bei anspruchsvollen mathematischen Problemen, gemessen im AIME 2026 Benchmark, erzielt das Seed 2.0 Mini einen soliden Wert von 86,7 Punkten. Damit liegt es zwar in Schlagdistanz zu seinem größeren Bruder, dem Seed 2.0 Lite (88,3), muss sich aber den direkten Konkurrenten GPT-5-mini High (92,5) und Gemini-3-Flash High (93,3) geschlagen geben. Anzeige Überraschend stark zeigt sich das Mini-Modell hingegen beim Programmieren. Im LiveCodeBench (v6) übertrifft das Seed 2.0 Mini mit 64,1 Punkten sogar das GPT-5-mini High (62,6). Auch wenn Gemini-3-Flash High (84,7) und das etwas größere Seed 2.0 Lite (81,7) hier noch einmal in einer ganz anderen Liga spielen, ist das für ein derart auf Latenz getrimmtes Modell ein beachtlicher Wert. Trotz der sehr hohen Kosteneffizienz – ByteDance beziffert den Preis für eine Million generierte Token auf lediglich 0,31$ – müssen Serverbetreiber Kompromisse bei der Zuverlässigkeit eingehen. Dass die Fehleranfälligkeit bei dieser reduzierten Architektur signifikant ansteigt, belegt der FactScore-Benchmark, der die Neigung zu Halluzinationen und Faktenfehlern misst. Hier bricht das Seed 2.0 Mini mit lediglich 50,4 Punkten massiv ein. + Quelle: bytedance Spezialisierte Modelle und das Ökosystem Neben den Allzweckmodellen listet die Modellübersicht der Seed-Familie auch spezialisierte Varianten wie „Doubao-Seed-Code“ auf. Das offizielle Datenblatt bestätigt die strategische Entwicklung dedizierter „Seed-Coder“-Modelle, die gezielt auf die Verarbeitung von Quellcode nachtrainiert wurden. Moderne Softwareentwicklung stützt sich zunehmend auf solche Assistenten, um Abhängigkeiten in großen Projekten zu analysieren und Syntaxfehler frühzeitig zu erkennen. Darüber hinaus deutet die veröffentlichte Dokumentation auf eine tiefere Verzahnung im Bereich der generativen Medien hin. Sprachmodelle wie Seed 2.0 dienen zunehmend als logische Steuerungszentrale, um multimodale Eingaben zu verarbeiten und komplexe Systeme für Bild- oder Videogenerierung zu koordinieren. Damit erscheint nach den aktuellen Versionen von GLM-5 und MiniMax 2.5 innerhalb weniger Tage das dritte sehr starke und günstige chinesische Modell auf dem Markt.

    Top News
    MiniMax M2.5 auf US-Niveau bei 10x günstigerem Preis
    Mit dem neuen Sprachmodell profitieren Entwickler von hoher Inferenzgeschwindigkeit und deutlichen Einsparungen bei komplexen Software-Aufgaben.

  • OpenAI GPT-5.3-Codex-Spark bringt „Echtzeit-Coding“

    Sam Altman programmiert schnell das Spiel Snake

    Nano Banana

    Kurzfassung

    Quellen

    OpenAI veröffentlicht mit GPT-5.3-Codex-Spark ein neues KI-Modell, das speziell auf der Hardware von Cerebras statt auf Nvidia-GPUs läuft. Das Modell priorisiert Geschwindigkeit und erreicht durch die Wafer-Scale-Architektur extrem niedrige Latenzen für Echtzeit-Coding. Benchmarks zeigen eine deutlich geringere Genauigkeit (58,4 %) im Vergleich zum Standard-GPT-5.3-Codex (77,3 %), aber eine schnellere Aufgabenbewältigung. Der Schritt markiert eine strategische Diversifizierung der Recheninfrastruktur von OpenAI, um Abhängigkeiten zu verringern.

    OpenAI – Introducing GPT‑5.3‑Codex‑Spark

    OpenAI diversifiziert seine Infrastruktur und veröffentlicht mit GPT-5.3-Codex-Spark erstmals ein Modell, das primär auf Chips des Herstellers Cerebras statt auf Nvidia-GPUs läuft. Der Fokus liegt auf extremer Geschwindigkeit für Echtzeit-Anwendungen, was jedoch klare Abstriche bei der Modell-Präzision mit sich bringt. Mit der Einführung von GPT-5.3-Codex-Spark vollzieht OpenAI einen strategischen Wechsel in der Hardware-Nutzung. Das Modell ist spezifisch für die Architektur der „Wafer Scale Engine“ von Cerebras optimiert. Ziel dieser Implementierung ist nicht die Steigerung der kognitiven Höchstleistung, sondern die drastische Reduzierung der Latenz bei der Code-Generierung. Dies folgt auf Berichte vom Januar 2026, wonach OpenAI Rechenkapazitäten im Wert von rund 10 Milliarden US-Dollar bei dem Chip-Spezialisten gesichert hat. Anzeige Latenzminimierung durch Wafer-Scale-Architektur Im Gegensatz zu herkömmlichen GPU-Clustern, bei denen Daten häufig zwischen Speicher und Recheneinheit transferiert werden müssen, nutzen Cerebras-Systeme riesige Chips, die Speicher und Rechenkerne direkt auf dem Wafer vereinen. Für Inferenz-Aufgaben, also die Anwendung des trainierten Modells, bedeutet dies einen erheblichen Geschwindigkeitsvorteil. OpenAI positioniert „Spark“ daher als Lösung für Szenarien, in denen der „Flow“ des Entwicklers nicht unterbrochen werden darf – etwa bei der Autovervollständigung in der IDE oder bei Agenten-Systemen, die Code in Schleifen selbstständig korrigieren müssen. Die technische Dokumentation verspricht eine bis zu 15-fach höhere Generierungsgeschwindigkeit im Vergleich zum Standard-Modell GPT-5.3-Codex. Folgendes Video zeigt es sehr gut: Quelle: X Benchmarks: Geschwindigkeit trifft auf Realität Ein detaillierter Blick auf die Leistungsdaten zeigt, dass die hohe Geschwindigkeit ihren Preis hat. Die Modell-Architektur ist zwangsläufig schlanker, was die Problemlösungsfähigkeit bei komplexen Aufgaben einschränkt. Im „Terminal-Bench 2.0“ (siehe Grafik) erreicht GPT-5.3-Codex-Spark eine Genauigkeit von 58,4 Prozent. Damit positioniert es sich zwar signifikant vor dem kleineren GPT-5.1-Codex-mini (46,1 Prozent), bleibt aber deutlich hinter dem aktuellen Flaggschiff GPT-5.3-Codex zurück, das eine Lösungsrate von 77,3 Prozent erzielt. Für kritische Infrastruktur-Updates oder komplexe Architektur-Entscheidungen bleibt das Standard-Modell somit die präzisere Wahl. + Quelle: OpenAI Die Daseinsberechtigung von Spark offenbart sich im „SWE-Bench Pro“, der die Genauigkeit in Relation zur Bearbeitungsdauer setzt. Die Datenpunkte zeigen, dass Spark (weiß markiert) Aufgaben typischerweise in einem Zeitfenster von 1 bis 3 Minuten abschließt. Das reguläre Codex-Modell (hellblau) benötigt für vergleichbare Lösungsraten oft zwischen 5 und 16 Minuten. Die Kurve verdeutlicht: Spark ist auf schnelles „Inferenz-Feuern“ ausgelegt, stagniert aber bei der Genauigkeit früher als das rechenintensivere Schwestermodell. + Quelle: OpenAI Strategische Unabhängigkeit Der Schritt ist auch politisch zu bewerten. Durch die Nutzung von Cerebras-Hardware verringert OpenAI die absolute Abhängigkeit von Nvidia. Für Unternehmenskunden bedeutet die Einführung von Spark eine neue Option im Baukasten: Sie müssen künftig abwägen, ob sie für einen Task die maximale Intelligenz (Codex) oder die schnellste Reaktionszeit (Codex-Spark) benötigen. In der Praxis dürfte Spark vor allem als „Vorschalt-Instanz“ dienen, die einfache Probleme sofort löst und nur bei Bedarf an das größere Modell weiter reicht. Anzeige

  • Die Funktionen von Seedance 2.0 sind von einer anderen Welt

    Ein Drache schlägt einen Volleyball

    Nano Banana

    Kurzfassung

    Quellen

    ByteDance veröffentlicht mit Seedance 2.0 ein multimodales KI-Modell, das Video, Bild und Audio in einem einzigen Prozess generiert und synchronisiert. Neue „Director-Level“-Werkzeuge ermöglichen eine präzise Steuerung der Bildkomposition und die Übertragung von Bewegungen aus Referenzvideos auf generierte Charaktere. Interne Benchmarks zeigen Vorteile bei der zeitlichen Konsistenz und Objekttreue gegenüber westlichen Konkurrenten, während kritische Voice-Cloning-Features aus Sicherheitsgründen vorerst deaktiviert wurden.

    ByteDance Seed – Official Launch of Seedance 2.0

    ByteDance Seed – Seedance 2.0 Product Page

    ByteDance Seed Blog – Seedance 2.0 Official Release (CN)

    ByteDance hat heute mit Seedance 2.0 ein neues generatives KI-Modell vorgestellt, das die Lücke zu Konkurrenten wie Sora 2 schließen soll. Das System integriert Video-, Audio- und Bildgenerierung in einem einzigen Modell und verspricht durch neue Steuermechanismen präzise Eingriffe in die Bildkomposition. Die Entwicklung generativer Video-KI bewegt sich weg von der reinen Erzeugung kurzer Clips hin zu kontrollierbaren Produktionswerkzeugen. Während frühere Modelle oft mit physikalischen Halluzinationen und mangelnder zeitlicher Kohärenz zu kämpfen hatten, adressiert ByteDance mit Seedance 2.0 primär die Steuerbarkeit der Ausgabe. Das Modell wurde als „All-in-One“-Lösung konzipiert, die nicht nur Pixel generiert, sondern diese kontextabhängig mit passenden Audiospuren verknüpft. Quelle: bytedance Benchmark-Analyse: Vorsprung durch Daten ByteDance untermauert die Leistungsfähigkeit von Seedance 2.0 mit einer Reihe interner und synthetischer Benchmarks. Die veröffentlichten Daten suggerieren eine Überlegenheit gegenüber aktuellen westlichen Modellen, müssen jedoch – wie bei Herstellerangaben üblich – mit einer gewissen Skepsis betrachtet werden, bis unabhängige Tests vorliegen. Anzeige Im Bereich Text-zu-Video (Text-to-Video) zeigen die Benchmark-Grafiken eine signifikante Verbesserung in der semantischen Umsetzung komplexer Prompts. Ein häufiges Problem generativer Modelle ist das „Vergessen“ von Details bei langen Eingabebefehlen. Seedance 2.0 soll laut Datenblatt eine höhere Trefferquote bei der korrekten Platzierung von Objekten und der Einhaltung physikalischer Grundregeln aufweisen. Die Metriken deuten darauf hin, dass die zeitliche Konsistenz – also das stabile Beibehalten von Objekten über mehrere Sekunden hinweg – optimiert wurde, was das typische Flimmern reduziert. + Quelle: bytedance Die Auswertung der Bild-zu-Video (Image-to-Video) Performance hebt die Identitätsbewahrung hervor. Eine der größten Herausforderungen besteht darin, ein statisches Referenzbild zu animieren, ohne dass sich die Gesichtszüge oder strukturelle Merkmale des Motivs verfremden. Die von ByteDance präsentierten Kurven zeigen hier einen Vorsprung in der „Subject Fidelity“. Das bedeutet, dass das Modell in der Lage ist, die in einem Startbild definierten Informationen (Lichtsetzung, Textur, Geometrie) exakter in die Bewegung zu übersetzen als Vorgängerversionen, die oft zu starken Halluzinationen neigten. + Quelle: bytedance Besonders betont der Hersteller die Ergebnisse der multimodalen Aufgaben-Evaluation. Hierbei muss das Modell Informationen aus verschiedenen Quellen (z.B. ein Referenzbild, eine Audio-Datei und ein Text-Prompt) gleichzeitig verarbeiten. Die Benchmark-Werte indizieren, dass Seedance 2.0 diese Inputs nicht isoliert betrachtet, sondern korreliert. Ein Beispiel hierfür ist die Lippensynchronität oder die Anpassung der visuellen Stimmung an eine vorgegebene Audiospur. Die Daten legen nahe, dass die Latenz zwischen den Modalitäten minimiert wurde, was für einen flüssigeren Gesamteindruck sorgt. + Quelle: bytedance Granulare Steuerung statt Zufallsgenerator Das zentrale Verkaufsargument von Seedance 2.0 ist der Übergang von der bloßen Generierung zur „Regie-Führung“ (Director-level Control). Bisherige Modelle funktionierten oft nach dem Prinzip einer Blackbox: Der Nutzer gibt Text ein und hofft auf ein brauchbares Ergebnis. Seedance 2.0 implementiert Werkzeuge, die aus der professionellen Videoproduktion entlehnt sind. Anzeige Dies zeigt sich insbesondere in der Funktion zur Struktur- und Bewegungsübertragung. Nutzer können ein Referenzvideo hochladen – etwa eine Person, die vor einem Greenscreen agiert oder eine einfache Aufnahme mit dem Smartphone. Das Modell extrahiert die Bewegungsmuster (ähnlich einem Motion-Capture-Verfahren) und überträgt diese auf eine neu generierte Figur. So lässt sich die Gestik eines realen Schauspielers eins zu eins auf einen Anime-Charakter oder eine fotorealistische Kunstfigur mappen. Technisch deutet dies auf eine fortgeschrittene Nutzung von Pose-Estimation-Algorithmen und Depth-Maps hin, die als rigides Grundgerüst für den Diffusionsprozess dienen. Quelle: bytedance Ein weiterer technischer Fortschritt liegt in der integrierten Audio-Synthese. Während Video und Audio bisher meist in getrennten Arbeitsschritten und oft mit unterschiedlichen KIs erstellt wurden, generiert Seedance 2.0 den Ton nativ passend zum Bildinhalt. Das System erkennt visuelle Ereignisse – wie das Zuschlagen einer Tür oder das Bellen eines Hundes – und erzeugt parallel die entsprechende Wellenform. Dies reduziert den Post-Production-Aufwand erheblich, da keine externe Sound-Bibliothek oder separate Audio-KI synchronisiert werden muss. Quelle: bytedance Der Ersteindruck ist jedenfalls überragend und besser als bei Sora 2 und Veo3.1, also der aktuellen Spitze bei Videogeneratoren.