
Wenn KI-Modelle über Bilder nachdenken, schaukeln sich kleine Wahrnehmungsfehler über mehrere Denkschritte zu falschen Ergebnissen auf. Das Framework HopChain erzeugt mehrstufige Bildfragen, die dieses Problem gezielt adressieren und 20 von 24 Benchmarks verbessern. Dafür zerlegt es komplexe Fragen in verkettete Einzelschritte und zwingt das Modell, jedes Bildobjekt einzeln zu prüfen, bevor es eine Schlussfolgerung zieht.
Der Artikel Alibabas Qwen-Team trainiert KI-Bildverständnis mit automatisch erzeugten Denkaufgaben erschien zuerst auf The Decoder.