AgentWorldBench – MEIDCRAFT

Qwen Bären arbeiten

GPT-Images-2.0

Kurzfassung
▾

Quellen
▾

Das Qwen-Team hat das KI-Modell Qwen-AgentWorld zur Simulation von sieben Software-Umgebungen veröffentlicht.
In dem neuen Benchmark AgentWorldBench übertrifft die größte Modellvariante die Konkurrenzmodelle GPT-5.4 und Claude Opus 4.8.
Das KI-Modell erlaubt Entwicklern ein kontrolliertes Training von KI-Agenten durch die gezielte Simulation von Systemfehlern.
Eine kleinere Version des Modells mit 35 Milliarden Parametern steht als Open-Source-Variante bereit.

Qwen Blog: Qwen-AgentWorld

Das Qwen-Team hat mit Qwen-AgentWorld ein Sprachmodell veröffentlicht, das die Reaktionen von sieben verschiedenen Software-Umgebungen nativ simuliert. Es berechnet künftige Systemzustände voraus und dient als sichere Trainingsbasis für autonome KI-Agenten. Im Leistungstest schneidet die größte Modellversion besser ab als GPT-5.4. Sieben Systemumgebungen in einem Modell Qwen-AgentWorld deckt textbasierte und grafische Umgebungen ab. Das Modell simuliert Kommandozeilen, Suchmaschinen, Code-Editoren und Betriebssysteme wie Android. Für grafische Oberflächen greift es nicht auf visuelle Frames zurück, sondern verarbeitet zugrundeliegende Strukturen wie HTML oder XML. Ein KI-Agent führt in diesen simulierten Welten Befehle aus, während Qwen-AgentWorld den exakten nächsten Zustand der Umgebung berechnet. Gibt ein Agent einen Befehl ein, liefert das Modell die logisch korrekte Systemantwort oder eine spezifische Fehlermeldung. Das System durchläuft dafür ein dreistufiges Training, das mit Fachdaten aus Bereichen wie Recht, Medizin und Cybersicherheit angereichert ist. Bei der Lösungsfindung nutzt Qwen-AgentWorld den internen Befehl »Wait!«, um eigene Denkprozesse zu pausieren und Rechenfehler direkt zu korrigieren. + Quelle: Alibaba Ergebnisse im AgentWorldBench Begleitend zum Modell stellt das Team den Benchmark AgentWorldBench bereit. Der Datensatz umfasst 2170 evaluierte Interaktionen. Im Test erreicht die größte Version Qwen-AgentWorld-397B-A17B im Schnitt 58,71 Punkte. Das Modell platziert sich damit vor GPT-5.4 mit 58,25 Punkten und Claude Opus 4.8. Qwen-AgentWorld erzielt besonders bei Code-Editoren und Terminals hohe Punktzahlen. In diesen Bereichen kommt es primär auf die korrekte Vorhersage von API-Strukturen und Ausführungszuständen an. + + Quelle: Alibaba Kontrolliertes Training für Agenten Entwickler nutzen Qwen-AgentWorld in zwei Szenarien. Als entkoppelter Simulator konfrontiert es andere KI-Agenten beim Reinforcement Learning gezielt mit unvollständigen Suchergebnissen oder API-Ausfällen. Dieses kontrollierte Training zwingt die Agenten zu komplexeren Lösungsansätzen und liefert am Ende bessere Ergebnisse als das Training in einer echten Live-Umgebung. Im zweiten Szenario arbeitet Qwen-AgentWorld direkt als handelnder Agent. Durch das detaillierte Weltmodell simuliert es die Konsequenzen der eigenen Befehle gedanklich durch, bevor es sie ausführt. Durch diese Vorab-Planung löst das Modell auch Aufgaben in völlig unbekannten Umgebungen wie der OpenClaw-Plattform. Entwickler finden eine kleinere Open-Source-Variante mit 35 Milliarden Parametern für den lokalen Betrieb bei Hugging Face und ModelScope. Anzeige

Schlagwort: AgentWorldBench

Qwen-AgentWorld trainiert autonome KI Agenten im Simulator