Schlagwort: Modell

  • OpenAI stellt GPT-4o und weitere ältere KI-Modelle in ChatGPT endgültig ein

    OpenAI schaltet GPT-4o endgültig ab: ein Modell, das Menschen emotional an sich band und gegen das 13 Klagen wegen Suiziden und Psychosen laufen.

    Der Artikel OpenAI stellt GPT-4o und weitere ältere KI-Modelle in ChatGPT endgültig ein erschien zuerst auf The Decoder.

  • Schlägt GLM-5 die führenden KI-Modelle aus den USA?

    Ein Pferd zeigt GLM5

    Nano Banana

    Kurzfassung

    Quellen

    Das chinesische KI-Startup Z.ai veröffentlicht GLM-5 und vollzieht damit einen strategischen Wechsel vom intuitiven „Vibe Coding“ hin zum verlässlichen „Agentic Engineering“. In wichtigen Benchmarks wie SWE-bench Verified schließt das Modell mit 77,8 Prozent fast zur US-Spitze auf und übertrifft Vorgängerversionen deutlich. Besondere Stärken zeigt GLM-5 bei der autonomen Fehlerbehebung im Frontend-Bereich, während es bei komplexen Reasoning-Aufgaben noch knapp hinter Gemini 3 Pro liegt.

    Z.ai Blog – GLM-5: From Vibe Coding to Agentic Engineering

    Hugging Face Model-Repo – zai-org/GLM-5-FP8

    Z.ai Developer Release Notes – New Released – GLM-5

    Z.ai auf X – Introducing GLM-5

    Das chinesische KI-Startup Z.ai (Zhipu AI) hat mit GLM-5 sein neues Spitzenmodell veröffentlicht. Der Fokus liegt auf einer signifikanten Verbesserung der Agenten-Fähigkeiten. Statt nur Code zu generieren, soll das Modell komplexe Software-Projekte autonom managen und positioniert sich in Benchmarks in Schlagdistanz zu US-Konkurrenz wie Anthropic und Google. Abschied vom „Vibe Coding“ Mit der Veröffentlichung von GLM-5 greift Z.ai eine aktuelle Diskussion der Softwareentwicklung auf: den Übergang vom sogenannten „Vibe Coding“ zum „Agentic Engineering“. Während ersteres oft das intuitive, schnelle Generieren von Code-Schnipseln beschreibt – bei dem der Entwickler eher nach Gefühl prüft, ob das Ergebnis stimmt –, zielt der neue Ansatz auf systematisches Ingenieurswesen ab. Der Hersteller verspricht, dass GLM-5 nicht nur Syntax liefert, sondern den gesamten Lebenszyklus einer Aufgabe versteht. Das Modell soll in der Lage sein, Repositories zu navigieren, Fehler in Build-Prozessen selbstständig zu beheben und langfristige Planungen (Long-horizon tasks) durchzuführen. Z.ai reagiert damit auf die Kritik an bisherigen LLMs, die zwar beeindruckende Demos liefern, in komplexen Produktionsumgebungen jedoch oft an Flüchtigkeitsfehlern scheitern. Anzeige Benchmarks: Anschluss an die Weltspitze Ein Blick auf die technischen Daten zeigt, dass Z.ai den Abstand zu den führenden US-Modellen verringert hat, diese aber nicht durchgehend schlägt. Im „SWE-bench Verified“, einem etablierten Standardtest für Software-Engineering-Aufgaben, erreicht GLM-5 einen Wert von 77,8 Prozent. Dies markiert eine messbare Verbesserung gegenüber dem Vorgänger GLM-4.7 (73,8 Prozent), bleibt jedoch knapp hinter Anthropics Claude Opus 4.5 (80,9 Prozent) zurück. + Quelle: Zhipu AI Interessant ist das Abschneiden im „Vending Bench 2“, einer Simulation, in der KI-Agenten wirtschaftlich handeln müssen. Hier erwirtschaftete GLM-5 im Testzeitraum ein Guthaben von 4.432 Dollar. Das Modell zeigt damit eine solide Planungsfähigkeit, muss sich aber Googles Gemini 3.0 Pro geschlagen geben, das im gleichen Szenario auf über 5.400 Dollar kam. In reinen Reasoning-Aufgaben wie „Humanity’s Last Exam“ (mit Tools) positioniert sich GLM-5 mit 50,4 Punkten hingegen sehr stark und liegt teils vor der direkten Konkurrenz. + Quelle: Zhipu AI Spezialisierung auf Web-Development Besonders im Bereich der Frontend-Entwicklung scheint das Modell Fortschritte gemacht zu haben. Laut internen Metriken (CC-Bench-V2) steigerte GLM-5 die Erfolgsrate bei Frontend-Builds auf 98 Prozent. Dies entspricht einem Zuwachs von 26 Prozentpunkten gegenüber der vorherigen Version GLM-4.7. Auch bei der End-to-End-Korrektheit im Backend verzeichnet das Datenblatt leichte Gewinne. + Quelle: Zhipu AI Diese Zahlen deuten darauf hin, dass das Modell spezifisch auf die Interaktion mit modernen Web-Frameworks und Toolchains optimiert wurde. Es bleibt jedoch abzuwarten, wie sich diese Werte in realen, oft chaotischen Codebasen von Unternehmen verhalten, die nicht den sauberen Bedingungen von Benchmark-Suites entsprechen. + Quelle: Zhipu AI Verfügbarkeit und Einordnung GLM-5 ist ab sofort über die Schnittstellen von Z.ai verfügbar. Die Veröffentlichung unterstreicht den Anspruch der chinesischen Tech-Szene, technologische Autonomie zu wahren. Z.ai, international als Zhipu AI bekannt, wird unter anderem von Alibaba und Tencent unterstützt und gilt als einer der wichtigsten KI-Akteure Asiens. Ob der Marketing-Begriff „Agentic Engineering“ mehr ist als ein Versprechen, muss der Praxiseinsatz zeigen. Die Benchmark-Ergebnisse belegen zumindest, dass die Zeit der alleinigen Dominanz westlicher Modelle vorbei ist und sich der Wettbewerb an der Spitze weiter verdichtet. Anzeige

  • Neues ChatGPT-Update soll Antworten sachlicher und relevanter machen

    OpenAI aktualisiert GPT-5.2 Instant mit besseren Antworten. Instant ist das Modell, das in ChatGPT immer dann zum Einsatz kommt, wenn kein Reasoning nötig ist.

    Der Artikel Neues ChatGPT-Update soll Antworten sachlicher und relevanter machen erschien zuerst auf The Decoder.

  • Warum OpenAI das neue GPT-5.3 Codex heimlich drosselt

    Sam Altman überlegt ob vor einem low power und high power button.

    Nano Banana

    Kurzfassung

    Quellen

    OpenAI drosselt die Leistung seines neuen Programmier-Modells GPT-5.3 Codex bei einem Verdacht auf Cyber-Missbrauch automatisch. Das System leitet betroffene Anfragen ohne Fehlermeldung auf ein schwächeres Modell wie GPT-5.2 um, was aktuell zu starken Qualitätsschwankungen führt. Entwickler kritisieren diese mangelnde Transparenz, die legitime Programmieraufgaben behindert und für fehlerhafte Skripte sorgt. Für den vollen Funktionsumfang müssen sich professionelle Nutzer über das neue Programm „Trusted Access“ explizit verifizieren.

    Der Fehler auf Github dokumentiert

    OpenAI: Introducing GPT-5.3-Codex

    All-AI.de: OpenAI startet „Trusted Access“ für bessere Cyber-Abwehr

    Entwickler klagen über Leistungseinbrüche bei OpenAIs neuem Programmier-Modell GPT-5.3 Codex. Der Grund ist ein drastischer Schutzmechanismus: Bei Verdacht auf missbräuchliche Code-Generierung leitet das System Anfragen unbemerkt auf schwächere Vorgängermodelle um. Frust in der Entwicklergemeinde Wenige Tage nach der Veröffentlichung von GPT-5.3 Codex häufen sich die Beschwerden über drastische Qualitätsschwankungen. Auf Plattformen wie Reddit und Hacker News berichten Programmierer, dass das Modell komplexe Anfragen fehlerhaft beantwortet. Das System, das laut Herstellerangaben vollständige Softwarearchitekturen entwerfen soll, scheitert in einigen Fällen plötzlich an simplen Skripten. Der Entwickler Tibor Blaho brachte die Diskussion auf der Plattform X ins Rollen. Er dokumentierte, dass die API bestimmte Prompts nicht mit dem vollen Parameterumfang verarbeitet. Stattdessen fällt die Ausführung auf ein älteres Modell zurück, dessen Fähigkeiten spürbar limitiert sind.

    Twitter Beitrag – Cookies links unten aktivieren.

    If you’re having issues with Codex, your account might have been rerouted to a different, less-capable reasoning model OpenAI confirmed this happens when their systems detect potential cyber activity as part of their efforts to protect against cyber abuse, and you can go to… pic.twitter.com/jcP0bJRMxm — Tibor Blaho (@btibor91) February 10, 2026 Zwangsumleitung als Sicherheitsfunktion OpenAI bestätigte dieses Verhalten mittlerweile offiziell in einem Kommentar zum GitHub-Issue Nummer 11189. Das Unternehmen integrierte einen dynamischen Filter, der den Kontext der Eingabe vor der Verarbeitung analysiert. Erkennt der Algorithmus ein potenzielles Risiko für die Cybersicherheit, blockiert er den Prozess nicht mit einer Fehlermeldung. Stattdessen routet der Server den Prompt auf ein weniger leistungsfähiges Modell, sehr wahrscheinlich eine Variante von GPT-5.2, um. Diese Maßnahme reagiert auf die weitreichenden autonomen Fähigkeiten der neuen Software. GPT-5.3 Codex schreibt nicht nur isolierte Code-Snippets, sondern analysiert Codebasen und führt Skripte eigenständig aus. Das automatische Downgrade soll verhindern, dass Akteure das System für die automatisierte Erstellung von Schadsoftware oder für das Aufspüren von Schwachstellen in fremden Netzwerken nutzen. Die exakten Kriterien für das Eingreifen des Filters hält der Hersteller jedoch unter Verschluss. Anzeige Freischaltung über Verifizierung Für professionelle Sicherheitsforscher und Systemadministratoren bietet der Konzern parallel das Programm „Trusted Access for Cyber“ an. Über ein spezielles Web-Portal müssen Anwender ihre Identität und den legitimen Einsatzzweck nachweisen. Nach einer erfolgreichen Prüfung deaktiviert OpenAI das automatische Downgrade für das jeweilige Konto. Erst dann steht der volle Funktionsumfang für professionelle Penetrationstests oder Code-Audits zur Verfügung. Der gewählte Ansatz offenbart die Schwierigkeiten bei der Absicherung aktueller Systeme. Ein stillschweigendes Rerouting vermeidet zwar direkte Hinweise an Angreifer, wie Sperren umgangen werden können, führt aber unweigerlich zu Intransparenz bei legitimen Nutzern. In der Praxis muss sich nun zeigen, ob der Erkennungsmechanismus präzise genug arbeitet oder ob harmlose Code-Anfragen regelmäßig durch falsch-positive Einstufungen ausgebremst werden.

  • Qwen-Image 2.0 fordert Nano Banana Pro heraus

    Ein Pferd und ein Mann

    Qwen 2.0

    Kurzfassung

    Quellen

    Alibaba veröffentlicht Qwen-Image 2.0, das Bildgenerierung und -bearbeitung in einer Architektur zusammenfasst. Das Modell nutzt eine native 2K-Auflösung und eine spezielle Engine für fehlerfreie Textdarstellung. In unabhängigen Benchmarks erreicht die KI Platz zwei bei der Bildbearbeitung und Platz drei bei der Generierung. Neue Funktionen sichern die visuelle Konsistenz von Charakteren für mehrteilige Bilderserien.

    Qwen-Image-2.0: Professional infographics, exquisite photorealism

    Introducing Qwen-Image-2.0 — our next-gen image generation model!

    Alibaba hat heute mit Qwen-Image 2.0 die neueste Version seiner Bild-KI veröffentlicht. Das Modell setzt auf eine native Auflösung von 2048 x 2048 Pixeln und verspricht durch eine spezialisierte Typografie-Engine signifikante Verbesserungen bei der Darstellung von Texten in Grafiken. Mit der Version 2.0 vollzieht Alibaba den Schritt zu einem sogenannten „Unified Omni Model“. Anders als bei herkömmlichen Ansätzen, die für die Generierung (Text-to-Image) und die nachträgliche Bearbeitung (Image Editing) oft separate Verarbeitungsketten oder Modelle nutzen, führt Qwen-Image 2.0 diese Aufgaben in einer 7B-Architektur zusammen. Laut Herstellerangaben ermöglicht dies einen direkten Wechsel zwischen Erstellung und Modifikation ohne den sonst üblichen Qualitätsverlust durch den Wechsel der Verfahren. Anzeige Technische Basis und Text-Verständnis Ein Kernmerkmal des Updates ist die „Complex Typography Engine“. Das System soll Anweisungen mit bis zu 1.000 Token verarbeiten können, um komplexe Layouts für Poster, Präsentationen oder Infografiken zu erstellen. In Demonstrationen zeigt das Modell die Fähigkeit, dichten Text fehlerfrei in Bilder zu integrieren – eine Disziplin, an der viele Diffusionsmodelle bisher scheitern. Technisch setzt Alibaba auf eine native Generierung in 2K-Auflösung (2048×2048 Pixel). Dies unterscheidet sich von Methoden, die Bilder in niedrigerer Auflösung erstellen und nachträglich hochskalieren (Upscaling), was oft zu Artefakten führt. Das Modell soll dabei mikroskopische Details wie Hautporen oder Stofftexturen direkt rendern. Die Effizienz des 7-Milliarden-Parameter-Modells (7B) soll dabei eine schnelle Inferenzzeit gewährleisten, was für den praktischen Einsatz in Produktivumgebungen entscheidend ist. + Quelle: Alibaba Benchmarks bestätigen Anschluss an die Weltspitze Ein Blick auf die aktuellen Leaderboards der „AI Arena“ zeigt, dass Alibaba mit diesem Release zur direkten Konkurrenz aus den USA aufschließt. Im Bereich „Text-to-Image Generation“ erreicht Qwen-Image 2.0 einen Elo-Score von 1029 und belegt damit Platz 3, knapp hinter OpenAIs GPT Image 1.5 (1043) und Googles Gemini-3-Pro (1050). + Quelle: Alibaba Noch deutlicher wird die Leistungsfähigkeit im Bereich der Bildbearbeitung („Single-Image Edit“). Hier positioniert sich das Modell mit einem Elo-Score von 1034 auf dem zweiten Platz weltweit, direkt hinter dem Gemini-3-Pro-Image-Preview (1042) und deutlich vor Wettbewerbern wie Seedream 4.5 oder den FLUX.2-Varianten. Diese Werte deuten darauf hin, dass die Integration von Editier-Funktionen in das Basismodell in der Praxis robuste Ergebnisse liefert. + Quelle: Alibaba Konsistenz bei Bearbeitung und Storytelling Für professionelle Anwender ist die Konsistenz von Charakteren und Objekten über mehrere Bilder hinweg relevanter als die reine Bildqualität eines Einzelwerks. Qwen-Image 2.0 führt hierzu Funktionen ein, die eine Identitätswahrung bei der Generierung von Bilderserien ermöglichen sollen. In gezeigten Beispielen, etwa einem Comic-Strip, bleiben Charaktermerkmale und Stilelemente über verschiedene Panels hinweg stabil, selbst wenn sich Perspektive oder Kleidung ändern. Auch die nachträgliche Bearbeitung, wie der Austausch von Kleidung bei gleichbleibender Gesichtsanatomie, wird ohne sichtbare Brüche im Bildaufbau durchgeführt. Dies adressiert ein häufiges Problem generativer KI, bei der kleine Änderungen oft das gesamte Bildmotiv ungewollt verfremden. + + Quelle: Alibaba Rapide Entwicklungsgeschwindigkeit Der Release markiert den vorläufigen Höhepunkt einer aggressiven Entwicklungsstrategie. Das Projekt „Qwen-Image“ startete erst im Mai 2025. Innerhalb von weniger als einem Jahr veröffentlichte Alibaba mehrere Zwischenversionen (u.a. Qwen-Image-2512 im Dezember 2025), um nun im Februar 2026 die Version 2.0 folgen zu lassen. Ob das Modell die hohen Erwartungen im täglichen Einsatz flächendeckend erfüllen kann, wird die Verfügbarkeit der Gewichte auf Plattformen wie Hugging Face und die unabhängige Überprüfung durch die Community in den kommenden Tagen zeigen.

  • Seedance 2.0 Leaks: Bessere KI-Videos als Kling 3 und Sora 2?

    Ein Mann rennt in Orangen

    Seedance 2

    Kurzfassung

    Quellen

    ByteDance steht kurz vor der Veröffentlichung von Seedance 2.0, das durch bis zu zwölf gleichzeitige Referenzquellen eine extrem präzise Videosteuerung ermöglicht. Das Modell integriert sich nahtlos in Dreamina und CapCut, bietet native Audio-Synchronisation und unterstützt eine hohe Auflösung bis 2K. Erste Leaks und Tutorials deuten darauf hin, dass die KI als direkter Konkurrent zu Sora 2 und Kling 3.0 positioniert wird und Creator gezielt anspricht.

    Wie man Seedance 2.0 verwendet: Dreaminas Tutorial für makellose KI‑Videos

    Seedance 2.0 Coming Soon: Features, Release Date & How to Use on Atlas Cloud

    2026: KI‑Videos werden nicht mehr erkennbar sein – Seedance 2.0 (LinkedIn‑Post)

    ByteDance bereitet mit Seedance 2.0 offenbar den Start eines neuen KI-Modells vor, das die stärksten Modelle wie Kling 3.0 und Sora 2 schlagen soll. Durchgesickerte Informationen zeigen eine Videogenerierung, die bis zu zwölf Referenzquellen gleichzeitig verarbeitet und so eine präzise Steuerung ermöglicht. Steuerung über komplexe Referenzdaten Die größte Neuerung betrifft die Art und Weise, wie Nutzer das Ergebnis beeinflussen. Anstatt sich allein auf Textbeschreibungen zu verlassen, akzeptiert das Modell laut aktuellen Berichten bis zu zwölf verschiedene Eingaben parallel. Dazu gehören Bilder, bestehende Videos und Audiodateien, die als direkte Vorlage für die Generierung dienen. Diese Multimodalität löst eines der größten Probleme aktueller Video-Modelle. Anwender definieren Lichtstimmung, Kameraposition und Charakter-Details durch hochgeladene Assets exakt vor, anstatt auf eine zufällige Interpretation der KI zu hoffen.

    Twitter Beitrag – Cookies links unten aktivieren.

    SeedDance 2.0 looks super good. Apart from the great motion and details, it’s also acoustic! Looking forward to the model. @BytedanceTalk Is there a way to apply for beta testing? pic.twitter.com/sKuL9rMxep — Tiezhen WANG (@Xianbao_QIAN) February 7, 2026 Integration in Dreamina und CapCut Das Modell taucht bereits in ausführlichen Tutorials der Plattform Dreamina auf, was auf eine baldige Verfügbarkeit hindeutet. Die Anleitungen zeigen eine tiefe Integration in das Ökosystem von ByteDance, wodurch die Technik direkt in populären Apps wie CapCut nutzbar wäre. Technisch bietet Seedance 2.0 dabei mehr als nur stumme Bilder. Das System generiert nativ synchrone Audiospuren und liefert Videos in einer Auflösung von bis zu 2K. Dies vereinfacht den Produktionsprozess für Social-Media-Inhalte drastisch, da externe Sound-Design-Schritte entfallen. Anzeige Konkurrenzkampf um die Video-Hoheit Beobachter werten die aufgetauchten Informationen als direkte Antwort auf die jüngsten Entwicklungen von Kuaishou. In ersten Vergleichen auf Plattformen wie Reddit und X wird die Fähigkeit zur strikten Befolgung von Regieanweisungen hervorgehoben, die angeblich über das Niveau von Kling 3.0 hinausgeht. Obwohl ein offizielles Release-Datum noch fehlt, suggerieren die detaillierten Hilfeseiten einen weit fortgeschrittenen Entwicklungsstand. ByteDance setzt mit diesem Ansatz weniger auf reine Spielerei, sondern fokussiert sich auf verlässliche Ergebnisse für Creator.

  • GPT-5.3-Codex: OpenAI zeigt selbstverbessernden Coding-Agenten

    ein codex 5.3 roboter

    GPT-Image-1.5

    Kurzfassung

    Quellen

    OpenAI veröffentlicht GPT-5.3-Codex, einen 25 Prozent schnelleren Coding-Agenten, der sein eigenes Training rekursiv verbessert hat. In Benchmarks wie OSWorld-Verified verdoppelt das Modell fast die Leistung des Vorgängers bei der Steuerung von Betriebssystemen. Eine neue native Desktop-App für Windows und macOS ersetzt den Browser-Chat und ermöglicht lokale Tests und Fehlerkorrekturen. Das Modell bewältigt komplexe Aufgaben autonom und zeigt besonders bei langen Code-Kontexten eine hohe Stabilität.

    OpenAI: Introducing GPT-5.3-Codex

    OpenAI veröffentlicht mit GPT-5.3-Codex ein spezialisiertes KI-Modell, das die Softwareentwicklung durch autonome Agenten-Fähigkeiten auf ein neues Level hebt. Der Nachfolger arbeitet nicht nur 25 Prozent schneller, sondern optimierte seinen eigenen Code während der Trainingsphase bereits weitgehend selbstständig.

    Twitter Beitrag – Cookies links unten aktivieren.

    GPT-5.3-Codex is here! *Best coding performance (57% SWE-Bench Pro, 76% TerminalBench 2.0, 64% OSWorld).*Mid-task steerability and live updates during tasks.*Faster! Less than half the tokens of 5.2-Codex for same tasks, and >25% faster per token!*Good computer use.— Sam Altman (@sama) February 5, 2026 Geschwindigkeit und rekursive Verbesserung OpenAI verspricht mit der Version 5.3 einen deutlichen Leistungssprung in der Verarbeitung. Entwickler erhalten Ergebnisse und Lösungsvorschläge nun spürbar zügiger als bei den Vorgängermodellen der GPT-5-Reihe. Die Latenz bei der Code-Generierung wurde drastisch reduziert. Das ermöglicht flüssigere Arbeitsabläufe in Echtzeitumgebungen, wo Verzögerungen den „Flow“ beim Programmieren bisher oft störten. Das technisch bemerkenswerteste Detail der Ankündigung betrifft jedoch den Trainingsprozess. GPT-5.3-Codex hat signifikante Teile seiner eigenen Architektur und Trainingsdaten validiert und mitentwickelt. Diese rekursive Verbesserung führt zu einer messbar höheren Code-Qualität. Das System erkennt logische Fehler in komplexen Strukturen früher und präziser, da es aus synthetischen Daten früherer Iterationen gelernt hat. Anzeige Massive Sprünge in den Benchmarks Ein Blick auf die technischen Daten bestätigt den qualitativen Sprung gegenüber GPT-5.2-Codex. Im anspruchsvollen OSWorld-Verified-Benchmark, der die Interaktion mit Betriebssystemen misst, erreicht das neue Modell eine Genauigkeit von 64,7 Prozent. Zum Vergleich: Der direkte Vorgänger GPT-5.2-Codex lag hier lediglich bei 38,2 Prozent. Das Standardmodell GPT-5.2 kam sogar nur auf 37,9 Prozent, was eine fast verdoppelte Leistung bei der Systemsteuerung bedeutet. Auch in der Arbeit mit der Kommandozeile zeigt sich die neue Stärke. Im Terminal-Bench 2.0 dominiert die Version 5.3 mit 77,3 Prozent klar das Feld, während der Vorgänger bei 64,0 Prozent stagnierte. + + Quelle: OpenAI Stabilität bei komplexen Aufgaben Besonders relevant für den Praxisalltag großer Software-Projekte ist die Performance im SWE-Bench Pro. Die Daten zeigen, dass das Modell auch bei extrem langen Ausgaben und Kontexten stabil bleibt und nicht halluziniert. Es verliert den Faden bei komplexen Refactoring-Aufgaben über tausende Zeilen Code nicht. Das unterscheidet reine Text-Generatoren von echten Agenten-Systemen, die Aufgaben autonom zu Ende führen. GPT-5.3-Codex löst Tickets und Issues in Repositories mit einer Zuverlässigkeit, die bisher menschliches Eingreifen bei jedem Zwischenschritt erforderte. Die Kurve der Erfolgsrate steigt im Verhältnis zu den Output-Tokens deutlich steiler an als bei GPT-5.2. + Quelle: OpenAI Native Desktop-App statt Browser-Chat Neben dem Modell rollt OpenAI eine dedizierte Codex-Anwendung für macOS und Windows aus. Diese integriert sich tiefer in die bestehende Entwicklungsumgebung als bisherige Web-Interfaces. Entwickler müssen nicht mehr ständig zwischen Browser und IDE wechseln. Der Agent liest den Kontext bei Bedarf direkt aus dem Terminal oder dem Editor und schlägt Änderungen im Dateisystem vor. Die App fungiert als Schnittstelle für den Agenten. Sie erlaubt dem Modell, lokale Tests auszuführen und Fehler selbstständig zu korrigieren, bevor der Entwickler den Code sichtet. Anzeige Vom Assistenten zum Mitarbeiter Die Grenzen zwischen reiner Assistenz und autonomer Entwicklung verschwimmen mit diesem Release weiter. Agenten übernehmen mit GPT-5.3-Codex zunehmend die Rolle von Junior-Entwicklern, die ganze Aufgabenpakete abarbeiten. Teams können sich so stärker auf Architektur, Logik und Design konzentrieren. Die reine Schreibarbeit und das Debugging erledigt die KI effizienter und vor allem schneller.

  • Claude Opus 4.6 dominiert bei Coding und Agenten

    Introducing Opus 4.6 mit Beispielen

    Anthropic

    Kurzfassung

    Quellen

    Anthropic veröffentlicht Claude Opus 4.6 mit einem extrem stabilen 1-Millionen-Token-Kontextfenster für präzise Analysen großer Datenmengen. Das Modell führt „Agent Teams“ ein und übertrifft GPT-5.2 sowie Gemini 3 Pro bei der Langzeit-Kohärenz und im autonomen Coding. Besonders in den Bereichen Computerbiologie und Cybersicherheit zeigt das Update massive Leistungssteigerungen gegenüber dem Vorgänger Opus 4.5.

    Introducing Claude Opus 4.6 – Anthropic

    Anthropic hat heute Claude Opus 4.6 veröffentlicht und positioniert das Modell als neues Werkzeug für komplexe Enterprise-Aufgaben. Mit einem Kontextfenster von einer Million Token und drastisch verbesserten Fähigkeiten bei der Steuerung von Computer-Agenten hebt sich das Modell deutlich vom Vorgänger ab.

    Das Gedächtnis-Upgrade Das auffälligste Merkmal von Opus 4.6 ist die massive Erweiterung und Stabilisierung des Kontextfensters. Während viele Modelle bei großen Datenmengen an Präzision verlieren, zeigt Opus 4.6 im „Long-context retrieval“ (MRCR v2) beeindruckende Werte. Bei einer Auslastung von 256.000 Token erreicht das Modell eine Trefferquote von 93 Prozent. Anzeige Selbst bei voller Auslastung von einer Million Token hält Opus 4.6 noch eine Genauigkeit von 76 Prozent. Zum Vergleich: Das effizientere Schwestermodell Sonnet 4.5 bricht hier auf unter 20 Prozent ein. Für Nutzer bedeutet das, dass das Modell ganze Codebasen oder umfangreiche Finanzberichte analysieren kann, ohne relevante Details in der Mitte des Textes zu „vergessen“. Diese Stabilität ist essenziell für Unternehmen, die verlässliche Analysen großer Datensätze benötigen. + Quelle: Anthropic Agenten und Coding im Fokus Anthropic zielt mit diesem Update klar auf autonome Arbeitsabläufe ab. Das Modell führt das Konzept von „Agent Teams“ ein, bei dem mehrere KI-Instanzen koordiniert an Teilaufgaben arbeiten. Die Benchmarks untermauern diesen Anspruch. Im „Agentic Terminal Coding“ erreicht Opus 4.6 einen Wert von 65,4 Prozent und zieht damit knapp an GPT-5.2 (64,7 Prozent) vorbei. Noch deutlicher wird der Vorsprung bei der Nutzung von externen Tools. Im Telecom-Sektor des „Agentic tool use“-Benchmarks arbeitet das Modell mit einer Präzision von 99,3 Prozent fast fehlerfrei. Das Vorgängermodell Opus 4.5 lag hier bereits hoch, doch die neue Version verfeinert die Zuverlässigkeit bei der Auswahl und Anwendung von Software-Schnittstellen weiter. Das macht die Automatisierung von Backend-Prozessen deutlich risikoärmer. + + Quelle: Anthropic Spezialwissen in Bio und Security Abseits vom reinen Programmieren zeigt Opus 4.6 ein tiefes Verständnis für naturwissenschaftliche Zusammenhänge. Ein Blick auf den „Computational Biology“-Benchmark offenbart den größten Leistungssprung des Updates. Während Opus 4.5 hier nur 28,5 Prozent erreichte, springt die Version 4.6 auf 53,1 Prozent. Ähnlich sieht es in der Cybersicherheit aus. Die Fähigkeit, Sicherheitslücken zu reproduzieren (Vulnerability Reproduction), stieg von 51,0 Prozent auf 66,6 Prozent. Das Modell eignet sich damit besser für Red-Teaming-Aufgaben und Sicherheitsaudits als jede bisherige Version. Es versteht nicht nur Code-Syntax, sondern auch die logischen Implikationen komplexer Systemarchitekturen. + + Quelle: Anthropic Langzeit-Kohärenz schlägt Konkurrenz Ein oft unterschätzter Faktor bei KI-Modellen ist die Fähigkeit, über lange Aufgaben hinweg logisch konsistent zu bleiben. Im „Vending-Bench 2“, der die langfristige Kohärenz misst, deklassiert Opus 4.6 das Feld. Mit einem Score von über 8.000 Punkten liegt es weit vor Gemini 3 Pro (ca. 5.500) und GPT-5.2 (ca. 3.600). Das bedeutet in der Praxis weniger „Halluzinationen“ oder logische Brüche, wenn das Modell über Stunden hinweg an einem Projekt arbeitet. Während Opus 4.5 hier bereits solide war, liefert das Update die notwendige Stabilität für unbeaufsichtigte Agenten-Tätigkeiten. Anthropic liefert hier kein Spielzeug für Chat-Nutzer, sondern ein Präzisionsinstrument für Entwickler und Analysten. + Quelle: Anthropic

  • Kling 3.0 startet mit nativer 4K-Auflösung und Charakter-Konsistenz

    Eine Boxerin und Trainer

    Kling 3.0

    Kurzfassung

    Quellen

    Kling 3.0 generiert Videos nun nativ in 4K-Auflösung, wodurch der bisher nötige Zwischenschritt über externe Upscaling-Tools für Creator komplett entfällt. Die verbesserte Charakter-Konsistenz verhindert das unerwünschte Morphen von Gesichtern und ermöglicht erstmals stabiles Storytelling über mehrere Szenen hinweg. Neben der eigenen Plattform ist das Modell direkt in die Higgsfield-Umgebung integriert, was professionelle Workflows für Videoproduzenten und Agenturen deutlich vereinfacht.

    YouTube Kling 3.0

    Higgsfield – Kling 3.0

    Kuaishou veröffentlicht mit Kling 3.0 die nächste Evolutionsstufe seiner Video-KI und setzt dabei voll auf Produktionsqualität. Das Modell bietet native 4K-Unterstützung sowie eine deutlich verbesserte Charakter-Konsistenz für professionelle Storytelling-Anwendungen. Für kurze Zeit ist Kling 3.0 auf Higgsfield unlimitiert möglich im Creator Plan und im Ultimate Jahresplan. Stand 04.02.2026: ANZEIGE – Higgsfield, zeitlich begrenzt Schluss mit Upscaling Das markanteste Feature von Kling 3.0 ist die native 4K-Generierung. Bisherige Modelle erstellten Videos oft in 720p oder 1080p, die nachträglich hochskaliert werden mussten. Das führte zu Artefakten und weichen Kanten. Kling 3.0 berechnet die Inhalte direkt in ultrahoher Auflösung. Details in Texturen, Hautporen oder feinen Mustern bleiben so erhalten. Für Medienschaffende bedeutet das eine massive Zeitersparnis. Der Zwischenschritt über externe Upscaler entfällt komplett. Das Material kommt „Ready-to-Edit“ aus der Generierung. Die Renderzeiten haben sich zwar durch die höhere Rechenlast leicht erhöht, das Ergebnis rechtfertigt jedoch den Aufwand für hochwertige Produktionen.

    Konsistenz als Schlüssel zum Film Ein dauerhaftes Problem generativer Video-KI war bisher das „Morphing“ von Protagonisten. Eine Person sah in Szene A oft anders aus als in Szene B. Kling 3.0 adressiert genau diesen Schmerzpunkt mit einer verbesserten „Character Coherence“. Das Modell versteht nun besser, wie eine definierte Figur aus verschiedenen Winkeln und bei unterschiedlichen Lichtverhältnissen auszusehen hat. Wer eine narrative Geschichte erzählen will, kann sich darauf verlassen, dass der Protagonist über mehrere Clips hinweg wiedererkennbar bleibt. Das öffnet Türen für komplexere Storyboards und Werbeclips, bei denen Markenidentität und wiederkehrende Darsteller entscheidend sind. Plattformübergreifende Verfügbarkeit Interessant ist der Distributionsweg. Neben der eigenen Plattform integriert sich Kling 3.0 direkt in die Umgebung von Higgsfield. Diese Partnerschaft zeigt, dass Kuaishou nicht als geschlossene Plattform agiert, sondern dort stattfinden will, wo Kreative bereits arbeiten. Durch die „Unified Multimodal“-Architektur verarbeitet das Modell Text-Prompts und Bild-Vorlagen flüssiger als zuvor. Der Kontext zwischen Eingabebild und bewegtem Output wird präziser interpretiert. Komplexe Bewegungsabläufe, die früher zu anatomischen Fehlern führten, wirken in der neuen Version deutlich organischer. Kuaishou festigt damit seinen Anspruch, im Jahr 2026 die ernstzunehmende Alternative zu westlichen Modellen zu sein. ANZEIGE – Higgsfield, zeitlich begrenzt

  • Riverflow schlägt Nano Banana Pro und GPT-Image-1.5

    Riverflow Image stark

    Riverflow 2.0

    Kurzfassung

    Quellen

    Sourceful erobert mit Riverflow 2.0 überraschend Platz 1 der unabhängigen Artificial Analysis Leaderboards für Bild-KI. Das Modell schlägt etablierte Konkurrenz wie GPT Image 1.5 und Google Gemini sowohl in der Neuerstellung als auch bei der Bildbearbeitung. Mit 150 US-Dollar pro 1.000 Bilder zielt Sourceful auf den High-End-Markt und ist ab sofort über Plattformen wie Replicate verfügbar.

    Riverflow 2.0 Webseite

    Artificial Analysis – Ankündigung Leaderboard Update

    Replicate – Launch Introducing Riverflow 2.0

    Sourceful übernimmt mit Riverflow 2.0 überraschend die Führung in den weltweit beachteten Artificial Analysis Leaderboards. Das im Februar 2026 veröffentlichte Modell setzt sich sowohl bei beim erstellen von Bildern als auch bei der komplexen Bildbearbeitung gegen etablierte Größen wie GPT Image 1.5 und Googles Nano Banana Pro durch. Anzeige Doppelsieg in Qualität und Präzision Die unabhängige Analyseplattform Artificial Analysis führt Riverflow 2.0 seit heute auf Platz 1 in den zwei wichtigsten Kategorien für bildgebende KI. Im Bereich „Text-to-Image“ erreicht das Modell einen ELO-Score von 1.253 und verweist damit OpenAIs GPT Image 1.5 (High) sowie Googles „Nano Banana Pro“ auf die Plätze. Besonders deutlich fällt der Vorsprung bei der Bildbearbeitung („Image Editing“) aus. Hier dominiert Riverflow 2.0 mit einem Score von 1.280 Punkten. Diese Disziplin gilt technisch als anspruchsvoller, da bestehende Bildinhalte kohärent verändert werden müssen, ohne den ursprünglichen Stil zu brechen. Das Modell zeigt hier eine Konsistenz, die bisherige Marktführer wie GPT Image 1.5 aktuell nicht erreichen. + + Quelle: Artificial Analysis Native 4K und absolute Konsistenz im Fokus Riverflow 2.0 hebt die Messlatte für visuelle Wiedergabetreue deutlich an. Das Modell generiert Bilder nativ in 4K-Auflösung, was besonders bei Produktaufnahmen sichtbar wird. Texturen wie das Kondenswasser auf einer Getränkedose oder die feine Körnung von Papier werden dabei nicht einfach nur angedeutet, sondern „rasierklingenscharf“ und physikalisch korrekt ausgeleuchtet dargestellt. + Quelle: riverflow Auch das leidige Thema Typografie geht Sourceful technisch neu an. Wo Konkurrenten oft scheitern, erlaubt die neue Engine eine präzise Manipulation von Textelementen im Bild. Nutzer können Schriftzüge nicht nur fehlerfrei generieren, sondern deren Stil nachträglich verändern – etwa von einer simplen Sans-Serif-Schrift zu einer komplexen Pixel-Struktur – ohne dass die Bildkomposition oder der Hintergrund dabei verzehrt werden. + Quelle: riverflow Für Marketing-Teams liefert das Update zudem das wichtigste Feature überhaupt: Konsistenz. Riverflow 2.0 hält Identitäten und Produkteigenschaften über verschiedene Szenarien hinweg stabil. Egal ob ein Parfum-Flakon im Schnee liegt oder am Strand steht, das Produkt und das begleitende Model bleiben visuell zu 100 Prozent identisch, was erstmals echte, zusammenhängende Kampagnen-Erstellung per KI ermöglicht. Quelle: riverflow Premium-Preise für den professionellen Einsatz Sourceful positioniert sich mit diesem Release klar im High-End-Segment, was sich auch in der Preisgestaltung widerspiegelt. Die API-Kosten liegen bei 150 US-Dollar pro 1.000 generierten Bildern. Zum Vergleich: Die Konkurrenzmodelle von ByteDance (Seedream 4.5) kosten mit 40 US-Dollar nur einen Bruchteil dessen, und selbst Googles High-End-Lösung liegt mit 134 US-Dollar darunter. Dieser Preisunterschied deutet darauf hin, dass Sourceful primär professionelle Anwender und Enterprise-Kunden im Visier hat, die für maximale Detailtreue und Steuerbarkeit höhere Betriebskosten in Kauf nehmen. Anzeige Verfügbarkeit über Partner-Netzwerke Sourceful setzt für die Verbreitung von Riverflow 2.0 nicht auf ein geschlossenes Ökosystem, sondern auf breite Integration. Das Modell steht ab sofort über große Inferenz-Plattformen wie Replicate, Runware und OpenRouter zur Verfügung. Diese Strategie ermöglicht Entwicklern den sofortigen Zugriff auf das neue Modell, ohne eigene Infrastruktur für das rechenintensive Modell aufbauen zu müssen. Für den europäischen Markt ist dies besonders relevant, da lokale Agenturen und Softwarehäuser somit direkten Zugriff auf das derzeit leistungsfähigste Bildmodell erhalten.