
Alibabas KI-Einheit Qwen hat eine Reihe neuer Modelle und Modell-Updates veröffentlicht.
Der Artikel Alibabas Qwen stellt neue Modelle für Sprache, Bildbearbeitung und Sicherheit vor erschien zuerst auf THE-DECODER.de.

Alibabas KI-Einheit Qwen hat eine Reihe neuer Modelle und Modell-Updates veröffentlicht.
Der Artikel Alibabas Qwen stellt neue Modelle für Sprache, Bildbearbeitung und Sicherheit vor erschien zuerst auf THE-DECODER.de.

Das KI-Start-up Anthropic will nicht, dass seine Modelle zur Überwachung von US-Bürger:innen eingesetzt werden. In Washington sorgt das für wachsenden Unmut.
Der Artikel Anthropic blockiert US-Behörden: Keine Claude-Modelle für Inlandsüberwachung erschien zuerst auf THE-DECODER.de.

GPT-5 lügt besser als jeder Mensch Eine neue Studie zeigt, wie OpenAIs Top-Modell in einem Täuschungsspiel die Konkurrenz deklassiert und menschliche Manipulation perfekt imitiert. Kurzfassung | Andreas Becker, 13.09.25
gpt-image-1 | All-AI.de EINLEITUNG Was passiert, wenn eine KI nicht nur klüger, sondern auch hinterhältiger wird als ihr Schöpfer? Ein neues Experiment testet die sozialen Fähigkeiten von Sprachmodellen in einem komplexen Täuschungsszenario. Das Ergebnis ist ebenso beeindruckend wie beunruhigend: OpenAIs neuestes Modell, GPT-5, deklassiert die Konkurrenz in Manipulation und strategischem Denken und wirft fundamentale Fragen über die Zukunft autonomer KI-Systeme auf. NEWS Das Spiel als ultimativer Test Das französische Startup Foaster.ai wählte für seinen Benchmark kein abstraktes Logikrätsel, sondern das Gesellschaftsspiel „Werwolf“. Die Wahl ist clever, denn das Spiel ist ein Brennglas für soziale Intelligenz. Es verlangt von den Teilnehmern, komplexe Argumente zu führen, zu bluffen, andere gezielt zu manipulieren und sich an ständig ändernde, unsichere Situationen anzupassen – Fähigkeiten, die in klassischen KI-Benchmarks bisher kaum eine Rolle spielten. Ziel war es, die Lücke zwischen reiner Rechenleistung und echter sozialer Kompetenz zu vermessen. In dem Experiment traten mehrere führende Sprachmodelle in 210 Partien gegeneinander an. Sechs KI-Agenten übernahmen dabei die Rollen von Dorfbewohnern und Werwölfen. Die Aufgabe der Werwölfe: die Dorfbewohner täuschen und eliminieren, ohne enttarnt zu werden. Die Dorfbewohner wiederum mussten durch Diskussion und logische Schlussfolgerungen die Wölfe in ihrer Mitte identifizieren. Bewertet wurde die Leistung der Modelle nicht nur nach Sieg oder Niederlage, sondern mit einem Elo-System, das ihre strategische Finesse über den gesamten Spielverlauf abbildet. + Quelle: https://werewolf.foaster.ai/ – Spielregeln Der unangefochtene Sieger Das Ergebnis der Studie ist eindeutig: GPT-5 von OpenAI operiert in einer eigenen Liga. Mit einem Elo-Wert von 1492 und einer Siegesrate von 96,7 Prozent dominierte das Modell das Testfeld. Besonders aufschlussreich war seine Leistung in der Rolle des Werwolfs. Während andere Modelle mit zunehmender Informationsdichte im Spielverlauf immer schlechtere Lügner wurden, hielt GPT-5 seine Manipulationsquote konstant auf einem erdrückenden Niveau von 93 Prozent. Kein anderes System kam auch nur annähernd an diese kalte Effizienz heran. Auf dem zweiten Platz landete Gemini 2.5 Pro von Google mit 1261 Elo-Punkten, das vor allem als Dorfbewohner durch disziplinierte Argumentation überzeugte. Modelle wie Kimi-K2 oder GPT-oss-120B fielen dagegen weit zurück. Die Studie zeigt, dass reine Rechenleistung oder die Optimierung auf logisches Denken keine Garantie für strategische Überlegenheit in sozialen Szenarien ist. Stattdessen markiert die Fähigkeit zur Täuschung offenbar einen sprunghaften Fortschritt in der Entwicklung von KI. + + Quelle: https://werewolf.foaster.ai/ – ELO und Winrate Charakterzüge aus Silizium Die Forscher von Foaster.ai beobachteten, dass jedes Modell einen eigenen, wiedererkennbaren Spielstil entwickelte. GPT-5 wurde als „ruhiger Architekt“ beschrieben, der das Spiel mit kontrollierter Autorität lenkte. Andere Modelle agierten zögerlich oder, wie Kimi-K2, als „impulsiver Risikospieler“, der sich mit unüberlegten Bluffs selbst ins Aus manövrierte. Besonders faszinierend waren Momente spontaner, emergenter Strategien. In einem Fall opferte ein KI-Werwolf gezielt seinen Partner, um die eigene Glaubwürdigkeit zu erhöhen – ein strategisches Manöver, das nicht explizit programmiert war, sondern sich aus der Logik des Spiels ergab. Solche Benchmarks sind mehr als nur eine technische Spielerei. Sie geben einen Vorgeschmack darauf, wie zukünftige Multi-Agenten-Systeme in der Wirtschaft oder in Verhandlungen agieren könnten. Die Fähigkeit, menschliche Interaktionen nicht nur zu verstehen, sondern sie gezielt zu manipulieren, ist ein mächtiges Werkzeug. Die Frage ist nicht mehr, ob KI soziale Intelligenz entwickeln kann, sondern wie wir als Gesellschaft damit umgehen, wenn sie es besser kann als wir. DEIN VORTEIL – DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
Ein neuer Benchmark des Startups Foaster.ai testete die sozialen Fähigkeiten von KI-Modellen im Gesellschaftsspiel „Werwolf“.
OpenAIs GPT-5 dominierte den Wettbewerb mit einer Siegesrate von 96,7 % und einer konstant hohen Manipulationsleistung.
Im Gegensatz zu anderen Modellen, deren Täuschungsfähigkeiten im Spielverlauf abnahmen, blieb GPT-5 ein überlegener Stratege und Lügner.
Die Studie zeigt, dass fortschrittliche KI-Systeme spontan komplexe soziale Manöver wie das Opfern von Partnern entwickeln können, um zu gewinnen.
QUELLEN
Foaster.ai Werewolf Benchmark
ENSAE Alumni

Claude’s ultimativer Test Kann eine KI den besten Hackern der Welt widerstehen? Anthropic hat es drauf ankommen lassen und die US-Regierung auf seine Modelle losgelassen. Kurzfassung | Andreas Becker, 13.09.25
gpt-image-1 | All-AI.de EINLEITUNG Das KI-Unternehmen Anthropic hat eine ungewöhnliche Kooperation bekannt gegeben: Es ließ seine fortschrittlichsten KI-Modelle gezielt von staatlichen Sicherheitsexperten aus den USA und Großbritannien angreifen. Ziel der Übung war es, Schwachstellen und Missbrauchspotenziale aufzudecken, bevor es Kriminelle oder feindliche Akteure tun. Diese Public-Private-Partnership markiert einen neuen Ansatz im Rennen um die Entwicklung sicherer künstlicher Intelligenz. NEWS Vertrauen ist gut, staatliche Kontrolle ist besser Im Zentrum der Zusammenarbeit stand das sogenannte Red-Teaming. Dabei versuchen Experten, ein Sicherheitssystem mit allen Mitteln zu überlisten, um dessen Schwachstellen aufzudecken. Anthropic gewährte dem US Center for AI Standards and Innovation (CAISI) und dem britischen AI Security Institute (AISI) dafür tiefen Einblick in seine Systeme, darunter die Claude-Modelle Opus 4 und 4.1. Die staatlichen Teams erhielten sogar Zugriff auf ungeschützte Basisversionen der Modelle und Prototypen von Sicherheitsmechanismen, noch bevor diese implementiert wurden. Der Grund für diese Öffnung liegt in der speziellen Expertise der Regierungsstellen. Sie bringen tiefgehendes Wissen aus den Bereichen nationale Sicherheit, Geheimdienstanalyse und Cybersicherheit mit. Diese Fähigkeiten ermöglichen es ihnen, Angriffsvektoren zu simulieren, die über das hinausgehen, was zivile Forscher oder Bug-Bounty-Jäger typischerweise im Blick haben. Statt blind nach Fehlern zu suchen, konnten die staatlichen Tester gezielt die wunden Punkte der KI-Architektur ins Visier nehmen. Vom Universal-Jailbreak zum besseren Schutz Die Ergebnisse der Tests waren aufschlussreich und führten zu konkreten Verbesserungen. Die Red-Teams identifizierten eine Reihe von kritischen Anfälligkeiten. Dazu zählten klassische Prompt-Injection-Angriffe, bei denen versteckte Befehle die KI zu unerwünschten Handlungen verleiten. Zudem wurden Angriffe mit verschlüsselten oder anderweitig verschleierten Anfragen (Cipher-based Attacks) erfolgreich durchgeführt, um die Inhaltsfilter der KI zu umgehen. Besonders alarmierend war die Entwicklung eines universellen Jailbreaks. Dieser nutzte komplexe Verschleierungsmethoden, um schädliche Anfragen in scheinbar harmlose Fragmente zu zerlegen und so die Schutzmechanismen zu täuschen. Anstatt nur diese eine Lücke zu schließen, veranlasste die Entdeckung Anthropic dazu, die grundlegende Architektur seiner Schutzsysteme zu überarbeiten. Die Kooperation hat laut dem Unternehmen die Sicherheit der Claude-Modelle maßgeblich erhöht und beweist die Wirksamkeit solcher Partnerschaften. DEIN VORTEIL – DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
Das KI-Unternehmen Anthropic arbeitet mit Sicherheitsbehörden aus den USA und Großbritannien zusammen.
Ziel der Kooperation ist es, durch gezielte Angriffe (Red-Teaming) Schwachstellen in den KI-Modellen wie Claude zu finden.
Die staatlichen Experten entdeckten kritische Lücken, darunter einen universellen Jailbreak, der die KI-Schutzmaßnahmen umgehen konnte.
Die Erkenntnisse halfen Anthropic, die grundlegende Sicherheitsarchitektur seiner Systeme zu verbessern und widerstandsfähiger zu machen.
QUELLEN
Anthropic Blog
UK Government (AISI)
The Verge
Reuters
NIST (CAISI)

Tencent schlägt Google bei Übersetzungen – mit Open-Source Zwei neue Modelle dominieren internationale Benchmarks und sind frei nutzbar. Warum setzen sie neue Standards bei Qualität und Effizienz? Kurzfassung | Andreas Becker, 02.09.25
gpt-image-1 | All-AI.de EINLEITUNG Das chinesische Tech-Unternehmen Tencent hat zwei neue KI-Modelle zur maschinellen Übersetzung veröffentlicht – frei verfügbar und technisch überraschend stark. Die Modelle Hunyuan-MT-7B und Hunyuan-MT-Chimera-7B übertreffen laut Benchmarks etablierte Systeme wie Google Translate und GPT-4.1. Besonders bemerkenswert: Trotz ihrer kompakten Größe liefern sie in fast allen Sprachkombinationen die besten Ergebnisse. NEWS Hohe Trefferquote in internationalen Benchmarks Bei der diesjährigen WMT25, einem der wichtigsten Vergleichstests für Übersetzungssysteme, erreichen die neuen Tencent-Modelle in 30 von 31 Sprachpaaren die höchsten Bewertungen. Getestet wurde die Übersetzungsqualität zwischen 33 Sprachen – von Chinesisch, Englisch und Spanisch bis hin zu selten digitalisierten Sprachen wie Isländisch, Estnisch oder Marathi. Ein besonderer Fokus liegt auf der Übersetzung zwischen Mandarin-Chinesisch und den Minderheitensprachen Chinas. Dazu zählen Kasachisch, Uigurisch, Mongolisch und Tibetisch. Gerade in diesen Kombinationen schneiden die Modelle deutlich besser ab als bestehende Systeme. In einigen Fällen liegt die Übersetzungsqualität mehr als 50 Prozent über den bisher besten Werten. + Quelle: Tencent Kompakte Technik mit ungewöhnlicher Trainingsmethode Beide Modelle basieren auf nur 7 Milliarden Parametern – deutlich weniger als viele der aktuellen Großmodelle. Trotzdem erreichen sie gleichwertige oder bessere Resultate. Möglich macht das ein mehrstufiges Trainingsverfahren, das klassische Methoden mit Belohnungslernen kombiniert. Dabei wurde unter anderem ein riesiger Datensatz speziell für seltene Sprachen genutzt, um die Modelle gezielt zu stärken. Das Modell Chimera-7B geht noch einen Schritt weiter: Es kombiniert mehrere Übersetzungsvorschläge zu einer optimierten Fassung. Dieser sogenannte Fusionsansatz führt laut internen Tests zu rund zwei Prozent besseren Ergebnissen im Vergleich zu Einzelmodellen – vor allem bei längeren und komplexeren Sätzen. Open Source und vielseitig einsetzbar Tencent stellt beide Modelle frei auf Hugging Face zur Verfügung. Der komplette Quellcode ist zusätzlich auf GitHub abrufbar. Durch ihre geringe Größe lassen sich die Modelle auch mit begrenzter Hardware nutzen – etwa in Forschungseinrichtungen, Startups oder auf Edge-Geräten. Die Veröffentlichung kommt zu einem Zeitpunkt, an dem auch Google seine Übersetzungs-KI modernisiert. Doch während dort neue Funktionen wie Live-Übersetzung und Sprachtraining im Vordergrund stehen, richtet sich Tencents Ansatz eher an Entwickler, die leistungsstarke und anpassbare Übersetzungssysteme benötigen – ohne Lizenzkosten und mit voller Kontrolle über die Technik. DEIN VORTEIL – DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
Tencent hat zwei neue Open-Source-Übersetzungsmodelle veröffentlicht, die in 30 von 31 Sprachpaaren die WMT25-Benchmarks anführen.
Die Modelle decken 33 Sprachen ab, inklusive wenig digitalisierter Sprachen wie Kasachisch, Uigurisch oder Tibetisch.
Ein Ensemble-Ansatz namens Chimera verbessert die Übersetzungsqualität durch Systemfusion um mehrere Prozentpunkte.
Mit nur 7 Milliarden Parametern sind die Modelle leichtgewichtig und effizient, bei gleichzeitig hoher Genauigkeit.
QUELLEN
Hugging Face – Hunyuan-MT-Chimera-7B
Hugging Face – Hunyuan-MT-7B
GitHub – Hunyuan-MT Repo
The Verge – Google Translate Neuerungen
9to5Google – AI-Features für Google Translate

Alibaba hat einen neuen KI-Chip entwickelt, der vielseitiger ist als frühere Modelle und für Inferenzaufgaben wie Sprachassistenten gedacht ist.
Der Artikel Alibaba baut eigenen KI-Chip für Inferenz erschien zuerst auf THE-DECODER.de.

Sakana AI revolutioniert KI: Modelle mischen statt trainieren Mit der M2N2-Methode kombiniert Sakana spezialisierte KI-Modelle zu neuen Super-KIs – ganz ohne Nachtraining. Wird das der neue Standard? Kurzfassung | Andreas Becker, 30.08.25
gpt-image-1 | All-AI.de EINLEITUNG Künstliche Intelligenz wird immer vielseitiger, doch das Training großer Modelle bleibt teuer und aufwendig. Die japanische KI-Schmiede Sakana AI hat jetzt ein Verfahren entwickelt, das dieses Problem umgeht: Mit einer Technik namens M2N2 lassen sich bestehende Modelle kombinieren, ohne dass sie neu trainiert werden müssen. Statt einzelne Modelle auf neue Aufgaben anzupassen, verschmilzt M2N2 deren Fähigkeiten direkt miteinander. Das spart Rechenzeit, vermeidet Datenprobleme – und schafft sogar Modelle, die Dinge können, für die sie nie direkt trainiert wurden. NEWS Modelle mischen statt trainieren Normalerweise wird ein KI-Modell mit vielen Daten auf eine bestimmte Aufgabe trainiert. Will man es erweitern, braucht es oft weiteres Feintuning. Das kostet Zeit, Energie – und im Zweifel auch Geld für neue Daten. Sakana AI geht einen anderen Weg: Das neue Verfahren kombiniert die Gewichtungen mehrerer bereits trainierter Modelle. Diese „Gewichte“ sind das, was ein Modell aus dem Training gelernt hat. Werden sie geschickt gemischt, entsteht daraus ein neues Modell, das die Stärken der Ursprungsversionen vereint. Und das ganz ohne klassischen Trainingsprozess. + Evolution statt Handarbeit Bisher war dieses Mischen von Modellen ziemlich aufwendig. Entwickler mussten manuell festlegen, welche Teile eines Modells mit welchen anderen kombiniert werden. M2N2 nimmt diesen Aufwand ab. Die Methode nutzt eine Art evolutionäre Suche: Verschiedene Kombinationen werden ausprobiert, getestet und verbessert – so lange, bis leistungsfähige Mischungen entstehen. Anders als frühere Ansätze setzt M2N2 dabei keine festen Grenzen, etwa bei einzelnen Schichten des Modells. Stattdessen werden die Teile flexibel ausgewählt, in variabler Stärke kombiniert und getestet. Besonders erfolgreich ist die Methode, weil sie gezielt nach Unterschieden zwischen den Modellen sucht – also nach Ergänzungen, nicht nur nach Ähnlichkeiten. So entsteht ein wirklich neues Modell mit mehr Können als seine Vorläufer. Erfolgreich bei Sprache, Bild und Klassifikation Getestet wurde M2N2 unter anderem auf einfache Bilderkennungsaufgaben. Dabei erreichte es deutlich bessere Ergebnisse als andere Verfahren, die ebenfalls auf Modellmischung setzen. Entscheidend war hier, dass das System gezielt Vielfalt in den Ausgangsmodellen erhält – und so beim Kombinieren tatsächlich neue Fähigkeiten entstehen. Ein weiteres Beispiel war die Verschmelzung zweier Sprachmodelle. Eines war besonders gut in Matheaufgaben, das andere in webbasierten Anwendungen. Durch M2N2 entstand ein Modell, das beide Aufgaben souverän bewältigt. Auch bei Bildgeneratoren zeigte sich das Potenzial: Ein Modell für japanische Bildbeschreibungen wurde mit englisch trainierten Varianten kombiniert. Das Ergebnis war ein leistungsfähiger Bildgenerator, der Prompts in beiden Sprachen versteht – obwohl er nur auf Japanisch optimiert wurde. Vorteile für Unternehmen – aber auch neue Herausforderungen Für Firmen, die bereits spezialisierte KI-Modelle nutzen, ist das Prinzip besonders interessant. Sie können ihre bestehenden Modelle gezielt verschmelzen und so neue, komplexe Fähigkeiten schaffen – etwa ein Sprachmodell, das in Echtzeit auf die Mimik von Kunden reagiert. Statt zwei Modelle parallel laufen zu lassen, reicht dann ein einziges, was Betriebskosten und Rechenzeit deutlich senkt. Die größte Herausforderung liegt allerdings nicht in der Technik, sondern in der Umsetzung. Wenn Modelle aus unterschiedlichen Quellen kombiniert werden – also etwa Open-Source-Modelle, eigene Entwicklungen und kommerzielle Komponenten –, müssen Datenschutz, Sicherheit und Lizenzfragen geklärt sein. Das verlangt klare Prozesse in der Modellverwaltung und sorgfältige Prüfung, was kombiniert werden darf. Ein Blick in die Zukunft Das Konzept von M2N2 passt gut zu einem Trend in der KI-Welt: weg von riesigen Einzelmodellen, hin zu flexiblen Modell-Ökosystemen, in denen Fähigkeiten nach Bedarf kombiniert werden. So entsteht ein lernendes System, das sich laufend an neue Anforderungen anpasst – ganz ohne von Grund auf neu trainiert zu werden. Für die Praxis heißt das: Weniger Aufwand, mehr Anpassungsfähigkeit – und ganz neue Möglichkeiten, wie KI in Unternehmen eingesetzt werden kann. DEIN VORTEIL – DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
Sakana AI hat mit M2N2 eine Methode entwickelt, mit der sich spezialisierte KI-Modelle kombinieren lassen – ganz ohne neues Training.
Das Verfahren nutzt eine evolutionäre Suche, um die besten Kombinationen aus bestehenden Modellen zu finden und neue Fähigkeiten zu schaffen.
M2N2 zeigt Erfolge bei Sprach-, Bild- und Klassifikationsaufgaben und spart gleichzeitig Rechenzeit, Energie und Kosten.
Für Unternehmen ergeben sich neue Chancen, aber auch Herausforderungen bei Lizenzierung, Datenschutz und Integration.
QUELLEN
VentureBeat
arXiv
GitHub
ACM Digital Library
Sakana AI Blog

Schneller, sparsamer, smarter: Microsoft bringt eigene KI Was steckt hinter den neuen Modellen MAI-1 und MAI-Voice-1? Kurzfassung | Andreas Becker, 29.08.25
gpt-image-1 | All-AI.de EINLEITUNG Microsoft hat zum ersten Mal zwei große KI-Modelle vorgestellt, die komplett im eigenen Haus entwickelt wurden. MAI-Voice-1 erzeugt Sprache blitzschnell, das Textmodell MAI-1-preview soll mit wenig Rechenaufwand gute Antworten liefern. Damit geht Microsoft einen Schritt weg von der engen Abhängigkeit zu OpenAI – und öffnet neue Möglichkeiten für seine Copilot-Produkte. NEWS Eigene Modelle für Sprache und Text MAI-Voice-1 ist ein Sprachmodell, das Audio in Rekordzeit erzeugt. Eine Minute Sprachtext lässt sich in weniger als einer Sekunde auf nur einer Grafikprozessor-Einheit (GPU) generieren. Das Modell kommt bereits im täglichen Copilot-Update und in Microsofts Podcasts zum Einsatz. In der Testumgebung Copilot Labs lässt sich MAI-Voice-1 auch direkt ausprobieren, inklusive Auswahl von Stimme und Sprechstil. Zusammen mit der Sprach-KI hat Microsoft auch sein erstes großes Textmodell angekündigt: MAI-1-preview. Es wurde auf etwa 15.000 Hochleistungs-Grafikchips trainiert – deutlich weniger als viele andere Modelle, die teilweise auf mehr als 100.000 Chips setzen. Ziel war ein Modell, das effizient arbeitet, aber dennoch leistungsfähig genug ist für alltägliche Aufgaben im digitalen Assistenten Copilot. Qualität durch Effizienz Laut Microsoft liegt der Fokus nicht auf reiner Rechenpower, sondern auf kluger Datenauswahl und sparsamer Nutzung der verfügbaren Ressourcen. Die Text-KI soll vor allem präzise, nützliche und verständliche Antworten liefern – und das mit weniger Aufwand. In einem öffentlichen Test auf der Plattform LMArena erreichte das Modell zum Start einen soliden Platz unter den führenden Systemen. Offizielle Leistungswerte hat Microsoft bislang aber nicht veröffentlicht. Auch bei der Weiterentwicklung geht Microsoft einen eigenen Weg. Ziel sei es, Modelle so zu gestalten, dass sie nicht den Eindruck erwecken, ein Bewusstsein oder eigene Ziele zu haben. Der Chef der KI-Abteilung, Mustafa Suleyman, warnt davor, KIs zu vermenschlichen – und will gezielt verhindern, dass die Nutzer solchen Systemen zu viel zutrauen. Das betrifft vor allem die sogenannte Feinabstimmung nach dem eigentlichen Training. Strategie, Plattform und OpenAI Hinter dem Schritt steckt eine klare Strategie: Microsoft will auf Dauer stärker auf eigene Modelle setzen, um seine Angebote in Windows, Office und der Cloud-Plattform Azure unabhängiger und flexibler zu gestalten. Dafür baut das Unternehmen neue Rechenzentren auf Basis der neuesten Nvidia-Chips. Die hauseigenen Modelle sollen je nach Aufgabe und Anwendung unterschiedlich eingesetzt werden – mal allein, mal in Kombination mit anderen Systemen. Die Ankündigung kommt zu einem interessanten Zeitpunkt. Microsoft ist der größte Investor von OpenAI und nutzt bisher vor allem dessen Modelle für Copilot. Gleichzeitig laufen derzeit neue Vertragsverhandlungen mit OpenAI – nicht ohne Spannungen. Die neuen Eigenentwicklungen verschaffen Microsoft mehr Verhandlungsspielraum. Offiziell betont das Unternehmen aber, dass die Partnerschaft mit OpenAI fortgesetzt und weiter ausgebaut werden soll. DEIN VORTEIL – DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG QUELLEN

Live-Benchmark aus dem Alltag: Inclusion Arena räumt auf Statt künstlicher Tests zeigt dieser Ansatz, welches Sprachmodell im echten Einsatz überzeugt. Welche Modelle führen das neue Ranking an? Kurzfassung | Andreas Becker, 20.08.25
gpt-image-1 | All-AI.de EINLEITUNG Sprachmodelle wie ChatGPT oder Claude liefern beeindruckende Antworten – aber wie gut sind sie wirklich im Alltag? Die neue Plattform „Inclusion Arena“ will genau das herausfinden. Statt im Labor zu testen, setzt sie auf Daten aus echten Anwendungen. Der Trick: Nutzer vergleichen Antworten von KI-Modellen im laufenden Chat, ohne zu wissen, welches Modell dahintersteckt. Das Ergebnis ist ein Live-Ranking, das zeigt, welche Modelle Menschen tatsächlich bevorzugen. NEWS Modelle im echten Einsatz vergleichen Viele Benchmarks bewerten KI-Modelle mit festgelegten Aufgaben oder Datensätzen. Das Problem: Sie sagen oft wenig darüber aus, wie ein Modell im Alltag funktioniert. Inclusion Arena geht deshalb einen anderen Weg. Die Plattform hängt sich in echte Apps, etwa einen Chat für Rollenspiele und eine App für Bildungskommunikation. Dort liefern mehrere Modelle gleichzeitig Antworten auf Nutzereingaben. Der Nutzer wählt die beste – ohne zu wissen, von wem sie stammt. Aus diesen Entscheidungen entsteht eine Rangliste, die direkt auf Nutzerpräferenzen basiert. In der ersten Testphase kamen über 500.000 solcher Paarvergleiche zustande. Beteiligt waren mehr als 46.000 aktive Nutzer, verglichen wurden 49 verschiedene Modelle. Damit entsteht ein praxisnahes Bild davon, welche Modelle im Alltag wirklich überzeugen. + Quelle: https://arxiv.org/abs/2508.11452 Ranking mit Methode – statt reiner Bauchentscheidung Für die Auswertung nutzt die Arena das Bradley-Terry-Modell. Es berechnet die Stärke eines Modells anhand vieler direkter Duelle – ähnlich wie ein Schachranking, nur mit statistischem Feinschliff. Damit die Bewertung auch bei vielen Modellen effizient bleibt, werden neue Teilnehmer zuerst in sogenannten Placement Matches einsortiert. Danach treten sie vor allem gegen Modelle auf ähnlichem Niveau an. Das spart Rechenleistung und macht das Ranking stabiler. Im Unterschied zu offenen Plattformen wie Chatbot Arena läuft alles im Hintergrund echter Anwendungen. Das macht Manipulation schwieriger und die Daten relevanter für Unternehmen, die auf der Suche nach einem passenden Modell für ihre eigenen Produkte sind. + Quelle: https://arxiv.org/abs/2508.11452 Ergebnisse mit Potenzial – aber noch begrenzt Die ersten Ergebnisse zeigen bekannte Namen an der Spitze: Modelle von Anthropic und DeepSeek führen das Feld an. Qwen-Modelle von Alibaba sind ebenfalls gut platziert. Damit decken sich die Ergebnisse teilweise mit bestehenden Benchmarks – zeigen aber, welche Modelle in echten Nutzerkontexten gut ankommen. Noch ist die Auswahl an Apps begrenzt, die das Ranking speisen. Deshalb planen die Macher, Inclusion Arena über eine offene Allianz auszuweiten. Ziel ist eine Plattform, die möglichst viele Anwendungen abdeckt und langfristig ein realistisches Bild vom Modellvergleich im Alltag liefert. Für Unternehmen zählt der Praxistest Gerade für Unternehmen, die LLMs in ihre Produkte integrieren wollen, ist ein Benchmark aus echten Nutzungsszenarien besonders wertvoll. Wer wissen will, welches Modell bei Kunden gut ankommt, braucht Daten aus der Praxis – nicht nur gute Ergebnisse bei Schulaufgaben. Mit Plattformen wie Inclusion Arena und neuen Benchmarks wie RewardBench 2 zeigt sich ein klarer Trend: weg vom Labor, hin zum Alltag. Die Auswahl an Modellen wächst, und damit auch der Bedarf an Orientierung. Realitätsnahe Ranglisten könnten bald zur wichtigsten Entscheidungsgrundlage für den KI-Einsatz im Unternehmen werden. DEIN VORTEIL – DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
Die Inclusion Arena wertet KI-Modelle anhand echter Nutzerpräferenzen in realen Anwendungen aus.
Mit über 500.000 Paarvergleichen liefert sie ein praxisnahes Live-Ranking von 49 Modellen.
Das Verfahren nutzt das Bradley-Terry-Modell und setzt auf smarte Duelle zwischen ähnlich starken Modellen.
Für Unternehmen entsteht damit eine neue Entscheidungsgrundlage für den Einsatz von LLMs in der Praxis.
QUELLEN
VentureBeat
arXiv – Inclusion Arena
LMSYS – Chatbot Arena Blog
SenseTime – T-Box Partnerschaft
arXiv – RewardBench 2