Qwen VLA ist eine universelle KI für alle Roboter

Ein Qwen Bär erklärt

GPT-Images-2.0

Kurzfassung

Quellen

Das neue KI-Modell Qwen-VLA übersetzt Sprache und Bilder direkt in physische Roboterbewegungen.
Im Gegensatz zu bisherigen Systemen steuert diese universelle Software unterschiedlichste Robotertypen und navigiert selbstständig durch Räume.
In Tests erzielt das Modell Bestwerte und passt sich flexibel an unbekannte Objekte sowie veränderte Umgebungen an.

Qwen Team – Qwen-VLA: From Understanding the World to Acting in It

Das Entwicklerteam hinter der KI Qwen hat das neue Modell Qwen-VLA vorgestellt. Das System versteht nicht nur visuelle und sprachliche Eingaben, sondern wandelt diese direkt in physische Handlungen für Roboter um. Damit überwindet die KI die reine Textausgabe. Ein Modell für sämtliche Aufgaben Bisherige Systeme in der Robotik arbeiten stark spezialisiert. Ein Programm kümmert sich um die Navigation, ein anderes steuert einen Greifarm und ein drittes ist fest an eine bestimmte Hardware gebunden. Qwen-VLA fasst diese Bereiche nun in einer universellen Architektur zusammen. Die KI verarbeitet Kamerabilder sowie gesprochene Anweisungen und berechnet daraus den nächsten Bewegungsschritt. Dadurch lässt sich dieselbe Software für unterschiedlichste Robotertypen und Aufgabenstellungen einsetzen. In aktuellen Tests erzielt das System bemerkenswerte Ergebnisse und schlägt teilweise sogar spezialisierte Programme. Bei der Benchmark-Aufgabe LIBERO verzeichnet Qwen-VLA eine Erfolgsquote von 97,9 Prozent. Auch in der simulierten Umgebung RoboTwin erreicht das Modell auf dem höchsten Schwierigkeitsgrad einen Wert von 87,2 Prozent. + Quelle: Alibaba Der Trainingsprozess in vier Stufen In der ersten Stufe lernt die Software, Textanweisungen in grundlegende Bewegungsabläufe zu übersetzen. Das System trainiert dabei ausschließlich die motorische Steuerung, komplett ohne visuelle Daten. Während der zweiten Stufe verarbeitet das KI-Modell zusätzlich Kamerabilder. Es verknüpft nun das zuvor erlernte Textverständnis mit konkreten räumlichen Umgebungen. In der dritten Stufe erfolgt ein gezieltes Feintuning. Ein Teil des Trainings optimiert allgemeine Aufgaben wie die Navigation, während ein anderer Teil das Modell mit echten Steuerungsdaten für physische Roboter anpasst. Die vierte Stufe nutzt bestärkendes Lernen in einer simulierten Umgebung. Die KI trainiert dort die fehlerfreie Ausführung kompletter Aufgaben und überträgt dieses Wissen später auf echte, völlig unbekannte Szenarien. + Quelle: Alibaba Handeln in unbekannten Situationen Besonders in realen Tests mit einem zweiarmigen ALOHA-Roboter zeigt das Modell eine hohe Anpassungsfähigkeit. Wenn die KI mit unbekannten Farben, Objekten oder veränderten Lichtverhältnissen konfrontiert wird, führt sie Befehle weiterhin zuverlässig aus. Gleichzeitig reagiert das System auf dynamische Veränderungen in der Umgebung. Fällt ein Gegenstand um oder bewegt sich das Ziel, passt Qwen-VLA den Bewegungsablauf an. Die Entwickler betonen, dass die KI keine festen Schablonen auswendig lernt, sondern das eigentliche Ziel einer Aufgabe begreift. So packt es dann je nach Wetter die Kappe oder den Regenschirm ein. + Quelle: Alibaba Anzeige

TRAUMWELT.exe ist kein gewöhnliches Buch. Es ist ein Blick durch den Spalt einer Tür, die sich längst geöffnet hat – in eine Welt, in der Maschinen träumen, Städte flüstern und Ethik verhandelbar geworden ist. Eine Sammlung visionärer Geschichten, die an der Schwelle zwischen Fiktion und Realität tanzen – so plausibel erzählt, dass du dich unweigerlich fragst: Ist das noch Zukunft oder schon Gegenwart?

Leser:innen sagen:

„Wie Black Mirror, nur philosophischer und näher an der Wirklichkeit.“, Lisa M.
„Jede Geschichte ist ein Gedankensprung in eine andere Zukunft.“, Stefan K.
„Beunruhigend schön. Eine literarische Simulation unserer nahen Zukunft.“, Albert B.