Alibabas Qwen-Team bringt KI-Modelle mit neuem Algorithmus zum tieferen Nachdenken

Abstrakte Collage mit geschwungenem Datenpfad, orange Linien verbinden Kugeln und Würfel vor grün-gelb-schwarzem Hintergrund.

Reinforcement Learning stößt bei Reasoning-Modellen an eine Grenze, weil alle Tokens gleich belohnt werden. Ein neuer Algorithmus von Alibabas Qwen-Team gewichtet stattdessen jeden Schritt danach, wie stark er die nachfolgende Argumentationskette beeinflusst. Er verdoppelt so die Länge der Denkprozesse.

Der Artikel Alibabas Qwen-Team bringt KI-Modelle mit neuem Algorithmus zum tieferen Nachdenken erschien zuerst auf The Decoder.