Schlagwort: Reinforcement

Alibabas Qwen-Team bringt KI-Modelle mit neuem Algorithmus zum tieferen Nachdenken

Reinforcement Learning stößt bei Reasoning-Modellen an eine Grenze, weil alle Tokens gleich belohnt werden. Ein neuer Algorithmus von Alibabas Qwen-Team gewichtet stattdessen jeden Schritt danach, wie stark er die nachfolgende Argumentationskette beeinflusst. Er verdoppelt so die Länge der Denkprozesse.

Der Artikel Alibabas Qwen-Team bringt KI-Modelle mit neuem Algorithmus zum tieferen Nachdenken erschien zuerst auf The Decoder.
Tencents Bild-KI X-Omni vereint Open-Source-Komponenten zu einem GPT-4o-Konkurrenten

Das Tencent-Team hinter X-Omni zeigt, dass Reinforcement Learning die Schwachstellen von Hybrid-Systemen behebt. Das System rendert recht präzise lange Texte in Bildern und erreicht teilweise neue Bestleistungen.

Der Artikel Tencents Bild-KI X-Omni vereint Open-Source-Komponenten zu einem GPT-4o-Konkurrenten erschien zuerst auf THE-DECODER.de.
LongWriter-Zero lernt nur durch Reinforcement Learning lange Texte zu schreiben

Ein Forschungsteam aus Singapur und China zeigt mit LongWriter-Zero, dass KI-Modelle durch Reinforcement Learning lernen können, über 10.000 Wörter lange Texte zu verfassen – ganz ohne synthetische Trainingsdaten.

Der Artikel LongWriter-Zero lernt nur durch Reinforcement Learning lange Texte zu schreiben erschien zuerst auf THE-DECODER.de.

Alibabas Qwen-Team bringt KI-Modelle mit neuem Algorithmus zum tieferen Nachdenken