Schlagwort: Pro

Google veröffentlicht Gemini 3.1 Pro und verspricht stärkere Reasoning-Leistung

Mit Gemini 3.1 Pro will Google die Kernintelligenz seiner Modellfamilie deutlich verbessern. Auf einem anspruchsvollen Reasoning-Benchmark hat sich die Leistung im Vergleich zum Vorgänger mehr als verdoppelt. Allerdings sind Benchmarks nur eben diese.

Der Artikel Google veröffentlicht Gemini 3.1 Pro und verspricht stärkere Reasoning-Leistung erschien zuerst auf The Decoder.
TikTok fordert mit Seed 2.0 ChatGPT und Gemini heraus.

Nano Banana

Kurzfassung
▾

Quellen
▾

ByteDance hat mit Seed 2.0 (Doubao 2.0) eine neue Generation großer KI-Sprachmodelle in den Varianten Pro, Lite und Mini veröffentlicht. Die Modelle zielen auf günstige Inferenzkosten ab und erreichen in Bereichen wie Programmierung und Mathematik Benchmark-Werte auf dem Niveau von GPT-5.2 und Gemini 3 Pro. Während die Pro-Version für komplexe, mehrstufige Logikaufgaben konzipiert ist, fokussiert sich das Mini-Modell auf hochfrequente Anfragen in Echtzeit. Spezielle Varianten wie Seed-Code sollen Entwickler künftig direkt in entsprechenden Programmierumgebungen bei der Arbeit unterstützen.

Seed2.0 – ByteDance Seed (offizielle Modellseite)

Seed2.0 Paper

ByteDance hat mit Seed 2.0 eine neue Generation seiner großen Sprachmodelle veröffentlicht. Die Architektur erscheint in drei Varianten und verspricht Leistungsdaten auf dem Niveau aktueller Spitzenmodelle bei gleichzeitig drastisch gesunkenen Inferenzkosten. Anzeige Warum Seed 2.0 und Doubao 2.0 identisch sind Hinter den Bezeichnungen Seed 2.0 und Doubao 2.0 verbirgt sich exakt dieselbe technische Basis. Während ByteDance den Namen Doubao vorrangig für den chinesischen Heimatmarkt und die eigenen Endkunden-Anwendungen nutzt, richtet sich die Marke Seed an die internationale Entwickler-Community. Das Unternehmen reagiert mit der neuen Generation auf den Trend zu agentenbasierter KI, bei der Modelle komplexe, mehrstufige Arbeitsabläufe autonom abarbeiten. KI-Agenten sollen künftig selbstständig Recherchen im Internet durchführen, externe Daten auslesen oder Dokumente in strukturierte Tabellen überführen. Die Modellfamilie gliedert sich in die drei Abstufungen Pro, Lite und Mini. Diese Segmentierung ist branchenüblich und erlaubt es Entwicklern, je nach Anwendungsfall zwischen maximaler Leistung und minimaler Latenz zu wählen. Die Pro-Version zielt auf tiefgreifende Logik, die Lite-Version bildet den Allrounder für den Alltag, und die Mini-Version ist für hochfrequente Anfragen mit extrem kurzer Reaktionszeit konzipiert. Im direkten Vergleich zu Konkurrenten wie OpenAI, Google oder Anthropic positioniert sich ByteDance über eine sehr aggressive Preisgestaltung. Das Ziel ist es, den Markt für API-Schnittstellen durch geringe Hardwarekosten bei gleichzeitig hoher Rechenleistung zu dominieren. + Quelle: all-ai.de Seed 2.0 Pro: Architektur und Besonderheiten Das Spitzenmodell Seed 2.0 Pro ist für tiefe logische Schlussfolgerungen und die Ausführung langer Aufgabenketten konzipiert. Die Architektur ist laut dem veröffentlichten Bericht darauf ausgelegt, multimodale Eingaben effizienter zu verarbeiten als die Vorgängergeneration. Ein zentrales Merkmal ist die Fähigkeit zur Test-Time-Compute-Skalierung, bei der das Modell dynamisch mehr Rechenzeit aufwendet und mehrere Lösungswege intern bewertet, bevor es ein Ergebnis ausgibt. Ein Anwendungsbeispiel des Herstellers zeigt die multimodalen Fähigkeiten in Echtzeit. In einem Demonstrationsvideo wertet das Modell den Live-Feed einer Smartphone-Kamera aus, die eine Person beim Krafttraining im Fitnessstudio filmt. Die Software analysiert die Bewegungsabläufe, erkennt Fehlhaltungen und gibt über eine synthetische Sprachausgabe direkte Korrekturanweisungen, ähnlich einem menschlichen Trainer. In der Praxis muss sich zeigen, wie fehlerfrei diese Bildauswertung bei schlechten Lichtverhältnissen oder komplexen Übungen funktioniert. Quelle: ByteDance Ein weiteres Beispiel demonstriert die automatisierte Webentwicklung durch das Modell. Auf Basis einer groben Textbeschreibung generiert die KI-Schnittstelle nicht nur den zugrundeliegenden HTML- und CSS-Code, sondern erstellt ein vollständiges, visuell ansprechendes Seitenlayout. Der Algorithmus platziert dabei selbstständig Platzhalter für Bilder, strukturiert Navigationsmenüs und passt das Design an mobile Endgeräte an. Entwickler lagern damit zeitintensive Routineaufgaben aus, müssen den generierten Code jedoch zwingend auf Sicherheitslücken und Effizienz prüfen. Aus einem einfachen Prompt mit 3 Sätzen ist folgende Webseite voll funktionsfähig enstanden: + Quelle: bytedance Seed 2.0 Pro im Benchmark-Vergleich In den Disziplinen Programmierung und autonome Agenten ordnet sich Seed 2.0 Pro knapp hinter den absoluten Spitzenreitern ein. Beim SWE-Bench (Verified), der die Lösung echter Softwareprobleme misst, erreicht das Modell 76,5 Prozent und schlägt damit Googles Gemini 3 Pro (76,2 Prozent) hauchdünn, bleibt aber hinter GPT-5.2 (80,0 Prozent) zurück. Bei der Ausführung von Befehlsketten in Kommandozeilen-Umgebungen, abgebildet durch den Terminal-Benchmark, zeigt sich ein ähnliches Bild. Hier erzielt die ByteDance-KI solide 55,8 Prozent, muss sich jedoch sowohl Gemini 3 Pro (56,9 Prozent) als auch dem Spitzenreiter GPT-5.2 (62,4 Prozent) geschlagen geben. + Quelle: bytedance Bei allgemeinen Leistungstests für Naturwissenschaften und Mathematik liefert das Modell ein gemischtes, aber durchweg hohes Niveau. In der Disziplin Science (MMLU-Pro) erreicht Seed 2.0 Pro 87,0 Prozent und übertrifft damit GPT-5.2 (85,9 Prozent), wird jedoch von Gemini 3 Pro mit herausragenden 97,1 Prozent deutlich distanziert. Ein anderes Kräfteverhältnis zeigt sich bei anspruchsvollen Mathematik-Prüfungen wie dem AIME 2026. Dort positioniert sich das ByteDance-System mit 94,2 Prozent knapp vor Gemini 3 Pro (93,3 Prozent), während OpenAI mit 97,5 Prozent den Referenzwert in diesem Testfeld vorgibt. Auch sonst können die Benchmarks größtenteils überzeugen: + Quelle: bytedance Seed 2.0 Lite: Der Kompromiss aus Leistung und Kosten Die Lite-Variante fungiert als Standardmodell für die meisten kommerziellen Anwendungen. Sie bietet einen Mittelweg aus Verarbeitungsgeschwindigkeit und logischer Tiefe. ByteDance gibt an, dass Seed 2.0 Lite die Gesamtleistung des bisherigen Hauptmodells Doubao 1.8 übersteigt, dabei aber deutlich weniger Rechenressourcen für die Inferenz benötigt. Anzeige In den veröffentlichten Benchmarks zeigt das Lite-Modell ein differenziertes Leistungsbild, besonders bei visuell gestützten Aufgaben. Beim Test MathVista, der das Verständnis von Diagrammen und mathematischen Grafiken prüft, erreicht Seed 2.0 Lite starke 89,0 Prozent. Damit liegt die kleinere Architektur fast exakt auf dem Niveau der hauseigenen Pro-Version (89,8 Prozent) sowie von Googles Gemini 3 Pro (89,8 Prozent) und übertrifft das Konkurrenzmodell GPT-5.2 (83,1 Prozent) messbar. Diese Zahlen signalisieren, dass das Modell bei klar strukturierten mathematischen Mustern kaum an Präzision einbüßt. Bei komplexeren visuellen Logikrätseln, wie sie der Benchmark ARC-AGI-2-Image abfragt, sinkt die Genauigkeit erwartungsgemäß. Hier erzielt das Lite-Modell 28,3 Prozent und ordnet sich mit deutlichem Abstand hinter Seed 2.0 Pro (43,3 Prozent) und dem Spitzenreiter GPT-5.2 (54,4 Prozent) ein. Bemerkenswert ist in den Datensätzen jedoch, dass die ByteDance-KI in diesem spezifischen Testfeld das etablierte Gemini 3 Pro (21,5 Prozent) hinter sich lässt. Die Ergebnisse verdeutlichen, dass die Lite-Version für alltägliche Aufgaben ausreichend dimensioniert ist, bei tiefgreifender, mehrstufiger Bildlogik jedoch an ihre Systemgrenzen stößt. + Quelle: bytedance Seed 2.0 Mini und seine Benchmark-Ergebnisse Für Szenarien, in denen Millisekunden entscheiden, hat ByteDance das Seed 2.0 Mini entwickelt. Dieses Modell ist strikt auf geringe Latenz und hohe Parallelität getrimmt. Die Architektur zielt auf Echtzeit-Übersetzungen, einfache Klassifizierungsaufgaben und die blitzschnelle Autovervollständigung von Code oder Texten ab. Ein Blick auf die konkreten Leistungsdaten offenbart ein gemischtes Bild: Bei anspruchsvollen mathematischen Problemen, gemessen im AIME 2026 Benchmark, erzielt das Seed 2.0 Mini einen soliden Wert von 86,7 Punkten. Damit liegt es zwar in Schlagdistanz zu seinem größeren Bruder, dem Seed 2.0 Lite (88,3), muss sich aber den direkten Konkurrenten GPT-5-mini High (92,5) und Gemini-3-Flash High (93,3) geschlagen geben. Anzeige Überraschend stark zeigt sich das Mini-Modell hingegen beim Programmieren. Im LiveCodeBench (v6) übertrifft das Seed 2.0 Mini mit 64,1 Punkten sogar das GPT-5-mini High (62,6). Auch wenn Gemini-3-Flash High (84,7) und das etwas größere Seed 2.0 Lite (81,7) hier noch einmal in einer ganz anderen Liga spielen, ist das für ein derart auf Latenz getrimmtes Modell ein beachtlicher Wert. Trotz der sehr hohen Kosteneffizienz – ByteDance beziffert den Preis für eine Million generierte Token auf lediglich 0,31$ – müssen Serverbetreiber Kompromisse bei der Zuverlässigkeit eingehen. Dass die Fehleranfälligkeit bei dieser reduzierten Architektur signifikant ansteigt, belegt der FactScore-Benchmark, der die Neigung zu Halluzinationen und Faktenfehlern misst. Hier bricht das Seed 2.0 Mini mit lediglich 50,4 Punkten massiv ein. + Quelle: bytedance Spezialisierte Modelle und das Ökosystem Neben den Allzweckmodellen listet die Modellübersicht der Seed-Familie auch spezialisierte Varianten wie „Doubao-Seed-Code“ auf. Das offizielle Datenblatt bestätigt die strategische Entwicklung dedizierter „Seed-Coder“-Modelle, die gezielt auf die Verarbeitung von Quellcode nachtrainiert wurden. Moderne Softwareentwicklung stützt sich zunehmend auf solche Assistenten, um Abhängigkeiten in großen Projekten zu analysieren und Syntaxfehler frühzeitig zu erkennen. Darüber hinaus deutet die veröffentlichte Dokumentation auf eine tiefere Verzahnung im Bereich der generativen Medien hin. Sprachmodelle wie Seed 2.0 dienen zunehmend als logische Steuerungszentrale, um multimodale Eingaben zu verarbeiten und komplexe Systeme für Bild- oder Videogenerierung zu koordinieren. Damit erscheint nach den aktuellen Versionen von GLM-5 und MiniMax 2.5 innerhalb weniger Tage das dritte sehr starke und günstige chinesische Modell auf dem Markt.

Top News
MiniMax M2.5 auf US-Niveau bei 10x günstigerem Preis
Mit dem neuen Sprachmodell profitieren Entwickler von hoher Inferenzgeschwindigkeit und deutlichen Einsparungen bei komplexen Software-Aufgaben.
Qwen3-Max-Thinking schlägt GPT-5.2 und Gemini 3 Pro

Alibaba

Kurzfassung
▾

Quellen
▾

Alibaba veröffentlicht mit Qwen3-Max-Thinking ein neues KI-Modell, das in Mathematik- und Coding-Benchmarks die US-Konkurrenz GPT-5.2 und Gemini 3 Pro übertrifft. Das Modell nutzt eine „System 2“-Architektur für tiefere logische Schlussfolgerungen, ähnlich der o-Serie von OpenAI. Im Gegensatz zu den geschlossenen US-Modellen ist Qwen3 als offene Variante verfügbar, was lokalen Betrieb und mehr Unabhängigkeit ermöglicht.

Alibaba Qwen3 Max Thinking Release

Qwen Ankündigung auf X

Der chinesische Tech-Gigant Alibaba hat heute mit „Qwen3-Max-Thinking“ sein bisher leistungsstärkstes KI-Modell veröffentlicht und zielt damit direkt auf die Vormachtstellung der US-Firmen. Für Entwickler und Unternehmen bedeutet dies eine Zäsur: Das neue Modell erreicht in entscheidenden Benchmarks nicht nur das Niveau von GPT-5.2 und Gemini 3 Pro, sondern übertrifft diese teilweise. Wachablösung an der Leistungsspitze Lange Zeit galten die Modelle von OpenAI und Google als unantastbar. Die neuesten Benchmark-Ergebnisse zeichnen jedoch ein anderes Bild. In der prestigeträchtigen Disziplin „GPQA Diamond“, die Expertenwissen auf PhD-Niveau abfragt, erzielt Qwen3-Max-Thinking einen Wert von 92,8 Punkten. Damit lässt es sowohl GPT-5.2 (92,4) als auch Googles Gemini 3 Pro (91,9) hinter sich. Besonders deutlich wird der Vorsprung bei komplexer Mathematik. Im „IMO-AnswerBench“, der Aufgaben der Internationalen Mathematik-Olympiade simuliert, erreicht das chinesische Modell 86,3 Punkte, während Gemini 3 Pro bei 83,3 und Claude-Opus-4.5 bei 84,0 liegen. Alibaba beweist damit, dass chinesische Spitzenmodelle den bloßen Kopiermodus verlassen haben und nun technologisch vorlegen. + Quelle: Alibaba Reasoning-Fähigkeiten im Fokus Der Namenszusatz „Thinking“ verrät die technische Ausrichtung. Das Modell antwortet nicht sofort reflexartig, sondern schaltet einen internen Denkprozess vor, um komplexe logische Ketten zu prüfen. Dieser Ansatz zahlt sich besonders bei der Programmierung aus. Im „Arena-Hard v2“-Benchmark, der die Bewältigung schwieriger realer Coding-Probleme misst, dominiert Qwen mit 90,2 Punkten das Feld deutlich gegenüber Claude-Opus-4.5 (76,7) und liegt gleichauf mit spezialisierten US-Modellen. Für Software-Ingenieure, die bisher auf westliche APIs angewiesen waren, eröffnet sich hier eine ernstzunehmende Alternative. + Quelle: Alibaba Anzeige Offene Gewichte als Strategiewechsel Der entscheidende Unterschied liegt jedoch nicht nur in den Rohdaten, sondern in der Verfügbarkeit. Während GPT-5.2 und Gemini 3 Pro als reine API-Produkte in den Cloud-Ökosystemen ihrer Hersteller eingesperrt bleiben, setzt Alibaba seine Strategie der offenen Verfügbarkeit fort. Qwen3-Max-Thinking ist „nicht geschlossen“. Das bedeutet in der Praxis oft, dass die Modellgewichte unter Lizenzen verfügbar gemacht werden, die eine lokale Ausführung oder das Hosting auf eigenen Servern erlauben. Für europäische Unternehmen, die unter strengen Datenschutzauflagen arbeiten, ist dies ein gewichtiges Argument. Man holt sich die Intelligenz ins eigene Haus, statt Daten in eine Blackbox zu senden. Grenzen und Konkurrenz Trotz der beeindruckenden Werte ist das Rennen nicht gelaufen. In Tests zum allgemeinen Weltwissen wie „MMLU-Pro“ liegt Gemini 3 Pro mit 89,8 Punkten weiterhin knapp vor Qwen (85,7). Das deutet darauf hin, dass Google in der Breite der Trainingsdaten noch Vorteile besitzt, während Alibaba bei der logischen Tiefe aufgeholt hat. Zudem zeigt der Vergleich mit DeepSeek V3.2, dass auch innerhalb Chinas ein harter Wettbewerb um die Krone der künstlichen Intelligenz entbrannt ist.
OpenAIs GPT-5.2 Pro stellt neuen Rekord im anspruchsvollen FrontierMath-Benchmark auf

OpenAIs GPT-5.2 Pro löst fast ein Drittel der schwierigsten Matheaufgaben im FrontierMath-Benchmark, ein deutlicher Sprung gegenüber dem bisherigen Rekord von Gemini 3 Pro.

Der Artikel OpenAIs GPT-5.2 Pro stellt neuen Rekord im anspruchsvollen FrontierMath-Benchmark auf erschien zuerst auf The Decoder.
Google verbessert AI Overviews in der Suche mit Gemini 3 Pro für komplexe Anfragen

Google schaltet für komplexe Suchanfragen in den AI Overviews sein stärkstes KI-Modell Gemini 3 Pro zu. Das intelligente Routing zwischen schnellen und leistungsfähigen Modellen ist aber nur für zahlende Abonnenten verfügbar.

Der Artikel Google verbessert AI Overviews in der Suche mit Gemini 3 Pro für komplexe Anfragen erschien zuerst auf The Decoder.
KI-Modell GPT-5.2 Pro liefert neuen Beweis für offenes mathematisches Problem

GPT-5.2 Pro hat wohl ein weiteres Erdos-Problem gelöst. Doch Mathematiker Terence Tao warnt vor verzerrter Wahrnehmung: Die tatsächliche Erfolgsquote von KI bei solchen Problemen liegt nur bei ein bis zwei Prozent.

Der Artikel KI-Modell GPT-5.2 Pro liefert neuen Beweis für offenes mathematisches Problem erschien zuerst auf The Decoder.
Aktuelle KI-Modelle meistern anspruchsvolle CFA-Finanzanalysten-Prüfung

Eine neue Studie zeigt, dass aktuelle Reasoning-Modelle die anspruchsvolle Finanzanalysten-Prüfung meistern. Gemini 3.0 Pro erreicht bei Level I einen Rekordwert von 97,6 Prozent.

Der Artikel Aktuelle KI-Modelle meistern anspruchsvolle CFA-Finanzanalysten-Prüfung erschien zuerst auf The Decoder.
Google stellt neuen Deep-Research-Agenten und neue KI-API vor

Google aktualisiert sein Deep-Research-System mit einer neuen Version basierend auf Gemini 3 Pro. Entwickler „freuen“ sich über einen neuen API-Standard, der agentische Fähigkeiten besser unterstützen soll.

Der Artikel Google stellt neuen Deep-Research-Agenten und neue KI-API vor erschien zuerst auf The Decoder.
Besser als Nano Banana Pro? Wo Seedream 4.5 wirklich gewinnt

Nano Banana

Kurzfassung
▾

Quellen
▾

ByteDance veröffentlicht Seedream 4.5 als kostengünstige Alternative zum Marktführer Nano Banana Pro. Das Modell erreicht im LM Arena Ranking einen starken Platz 3 im Image Editing, liegt bei der Generierung aber nur auf Platz 7. Ein neues Konsistenz-Modul nutzt bis zu 14 Referenzbilder für stabile Charaktere und Stile in Serien. Mit verbesserten Texturen und nativer 4K-Ausgabe zielt das Update auf professionelle kommerzielle Workflows.

Seedream 4.5 – Official Release

LM Arena – Current Leaderboard Dec 2025

Replicate API – Seedream 4.5 Documentation

Wavespeed.ai – Model Hosting & Pricing

Runcomfy – Seedream 4.5 Sequential Edit Features

ByteDance meldet sich mit Seedream 4.5 zurück und liefert ein Update, das vor allem Workflow-Probleme im Arbeitsalltag lösen soll. Während das Modell in der reinen Bildgenerierung nicht ganz an die absolute Spitze heranreicht, zeigt es in spezifischen Disziplinen wie der Bildbearbeitung Zähne. Der Realitätscheck: LM Arena und Benchmarks Ein Blick auf die aktuellen Zahlen der LM Arena (Stand 04.12.2025) ordnet das Modell realistisch ein. Im Bereich „Text-to-Image“ landet Seedream 4.5 auf einem soliden Platz 7. Damit muss es sich den aktuellen Schwergewichten geschlagen geben – allen voran dem unangefochtenen, aber extrem teuren Marktführer Nano Banana Pro sowie Flux 2. Anders sieht es beim „Image Editing“ aus: Hier klettert das ByteDance-Modell auf einen starken Platz 3. Das zeigt die klare Stoßrichtung: Seedream 4.5 ist weniger ein Werkzeug für das eine perfekte Kunstwerk, sondern ein Arbeitstier für die Anpassung und Variation bestehender Assets. Wer die absolute High-End-Qualität von Nano Banana Pro nicht bezahlen will oder kann, findet hier eine potente Alternative im oberen Mittelfeld. + Quelle: LMArena Konsistenz als Verkaufsargument Das technische Highlight bleibt das „Cross-Image-Konsistenz-Modul“. Auch wenn die reine Generierungsqualität „nur“ Top 10 ist, löst Seedream ein Problem, an dem selbst manche Top-Modelle noch knabbern: Die Wiedererkennbarkeit. Durch den Upload von bis zu 14 Referenzbildern hält die KI Gesichter, Kleidung und Stile über Serien hinweg stabil. Das ist für Storyboards oder konsistente Werbemittel oft wertvoller als das letzte Quäntchen Detailauflösung. ByteDance zielt damit auf Agenturen und Creator, die verlässliche Ergebnisse für Serienproduktionen brauchen, ohne die Budget-Karte von Nano Banana Pro ziehen zu müssen. + Quelle: Bytedance Features und Detailverbesserungen Abseits der Rankings liefert Seedream 4.5 wichtige Updates für den Feinschliff. Die Typografie-Engine wurde überarbeitet und rendert Texte auf Postern oder Mockups nun deutlich fehlerfreier als die Vorgängerversion. Auch die „Cinematic Aesthetics“ wurden verbessert, bieten realistische Beleuchtungssimulationen und native 4K-Ausgabe. Quelle: Bytedance – verschiedene Bilder Fazit und Verfügbarkeit Seedream 4.5 ist ab sofort über Plattformen wie Higgsfield verfügbar. Mit einem Preis von ca. 0,04 US-Dollar pro Bild positioniert es sich als erschwingliche „Workhorse“-Lösung. Es stürzt den König Nano Banana Pro nicht vom Thron, bietet aber gerade im Bereich Editing und Konsistenz ein spannendes Paket für alle, die auf das Budget achten müssen. Am besten direkt ausprobieren! ANZEIGE – Seedream 4.5 direkt auf Higgsfield ausprobieren
KI-Start-up Kimi veröffentlicht Slide-Generator mit Nano Banana Pro – 48 Stunden kostenlos testen

Kimi bietet für 48 Stunden kostenlosen Zugang zu „Agentic Slides“ mit dem KI-Modell Nano Banana Pro.

Der Artikel KI-Start-up Kimi veröffentlicht Slide-Generator mit Nano Banana Pro – 48 Stunden kostenlos testen erschien zuerst auf The Decoder.