
Eine neue Studie zeigt, dass die beeindruckenden Fortschritte von Alibabas Qwen2.5-Modellen beim mathematischen Reasoning durch Reinforcement Learning hauptsächlich auf Datenkontamination zurückzuführen sind. Auf „sauberen“ Benchmarks versagen dieselben Methoden.
Der Artikel Alibabas KI-Modell Qwen2.5 glänzt bei Mathe nur dank auswendig gelernter Trainingsdaten erschien zuerst auf THE-DECODER.de.