
Alibaba
Kurzfassung
▾
Quellen
▾
Alibaba veröffentlicht mit Qwen3-Max-Thinking ein neues KI-Modell, das in Mathematik- und Coding-Benchmarks die US-Konkurrenz GPT-5.2 und Gemini 3 Pro übertrifft. Das Modell nutzt eine „System 2“-Architektur für tiefere logische Schlussfolgerungen, ähnlich der o-Serie von OpenAI. Im Gegensatz zu den geschlossenen US-Modellen ist Qwen3 als offene Variante verfügbar, was lokalen Betrieb und mehr Unabhängigkeit ermöglicht.
Alibaba Qwen3 Max Thinking Release
Qwen Ankündigung auf X
Der chinesische Tech-Gigant Alibaba hat heute mit „Qwen3-Max-Thinking“ sein bisher leistungsstärkstes KI-Modell veröffentlicht und zielt damit direkt auf die Vormachtstellung der US-Firmen. Für Entwickler und Unternehmen bedeutet dies eine Zäsur: Das neue Modell erreicht in entscheidenden Benchmarks nicht nur das Niveau von GPT-5.2 und Gemini 3 Pro, sondern übertrifft diese teilweise. Wachablösung an der Leistungsspitze Lange Zeit galten die Modelle von OpenAI und Google als unantastbar. Die neuesten Benchmark-Ergebnisse zeichnen jedoch ein anderes Bild. In der prestigeträchtigen Disziplin „GPQA Diamond“, die Expertenwissen auf PhD-Niveau abfragt, erzielt Qwen3-Max-Thinking einen Wert von 92,8 Punkten. Damit lässt es sowohl GPT-5.2 (92,4) als auch Googles Gemini 3 Pro (91,9) hinter sich. Besonders deutlich wird der Vorsprung bei komplexer Mathematik. Im „IMO-AnswerBench“, der Aufgaben der Internationalen Mathematik-Olympiade simuliert, erreicht das chinesische Modell 86,3 Punkte, während Gemini 3 Pro bei 83,3 und Claude-Opus-4.5 bei 84,0 liegen. Alibaba beweist damit, dass chinesische Spitzenmodelle den bloßen Kopiermodus verlassen haben und nun technologisch vorlegen. + Quelle: Alibaba Reasoning-Fähigkeiten im Fokus Der Namenszusatz „Thinking“ verrät die technische Ausrichtung. Das Modell antwortet nicht sofort reflexartig, sondern schaltet einen internen Denkprozess vor, um komplexe logische Ketten zu prüfen. Dieser Ansatz zahlt sich besonders bei der Programmierung aus. Im „Arena-Hard v2“-Benchmark, der die Bewältigung schwieriger realer Coding-Probleme misst, dominiert Qwen mit 90,2 Punkten das Feld deutlich gegenüber Claude-Opus-4.5 (76,7) und liegt gleichauf mit spezialisierten US-Modellen. Für Software-Ingenieure, die bisher auf westliche APIs angewiesen waren, eröffnet sich hier eine ernstzunehmende Alternative. + Quelle: Alibaba Anzeige Offene Gewichte als Strategiewechsel Der entscheidende Unterschied liegt jedoch nicht nur in den Rohdaten, sondern in der Verfügbarkeit. Während GPT-5.2 und Gemini 3 Pro als reine API-Produkte in den Cloud-Ökosystemen ihrer Hersteller eingesperrt bleiben, setzt Alibaba seine Strategie der offenen Verfügbarkeit fort. Qwen3-Max-Thinking ist „nicht geschlossen“. Das bedeutet in der Praxis oft, dass die Modellgewichte unter Lizenzen verfügbar gemacht werden, die eine lokale Ausführung oder das Hosting auf eigenen Servern erlauben. Für europäische Unternehmen, die unter strengen Datenschutzauflagen arbeiten, ist dies ein gewichtiges Argument. Man holt sich die Intelligenz ins eigene Haus, statt Daten in eine Blackbox zu senden. Grenzen und Konkurrenz Trotz der beeindruckenden Werte ist das Rennen nicht gelaufen. In Tests zum allgemeinen Weltwissen wie „MMLU-Pro“ liegt Gemini 3 Pro mit 89,8 Punkten weiterhin knapp vor Qwen (85,7). Das deutet darauf hin, dass Google in der Breite der Trainingsdaten noch Vorteile besitzt, während Alibaba bei der logischen Tiefe aufgeholt hat. Zudem zeigt der Vergleich mit DeepSeek V3.2, dass auch innerhalb Chinas ein harter Wettbewerb um die Krone der künstlichen Intelligenz entbrannt ist.