Eine neue Studie stellt infrage, ob Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) tatsächlich die Denkfähigkeiten großer Sprachmodelle verbessert – oder lediglich dabei hilft, bekannte Lösungswege effizienter zu reproduzieren.
Der Artikel Forscher zweifeln an „Reasoning“-Modellen: Effizienter ja, intelligenter nein erschien zuerst auf THE-DECODER.de.