Erratische Gedankensprünge beeinflussen die Leistung von Reasoning-LLMs wie o1

Eine Studie untersucht das Phänomen des "Underthinking" in großen KI-Sprachmodellen wie OpenAI o1. Dabei wechseln die Modelle während des Reasoning-Prozesses häufig zwischen verschiedenen Lösungsstrategien, was zu einer ineffizienten Ressourcennutzung und geringerer Genauigkeit bei komplexen Aufgaben führt. Die Forscher stellten fest, dass die Modelle bei falschen Antworten deutlich häufiger zwischen Denkansätzen wechselten als bei richtigen Lösungen. Dieser Effekt war umso ausgeprägter, je schwieriger die Aufgaben waren. Zudem enthielten 70 Prozent der falschen Antworten mindestens einen richtigen, aber nicht zu Ende gedachten Gedankengang. Als Lösung schlagen die Autoren die "Thought Switching Penalty" (TIP) vor, die Strategiewechsel während des Reasoning-Prozesses "bestraft". In Experimenten verbesserte TIP die Genauigkeit von QwQ-32B-Preview konsistent über verschiedene anspruchsvolle Datensätze hinweg und reduzierte das Underthinking.

Eine neue Studie untersucht das Phänomen des „Underthinking“ in Large Reasoning Models wie OpenAI o1. Häufige Strategiewechsel während des Reasoning-Prozesses führen zu einer ineffizienten Ressourcennutzung und beeinträchtigen die Genauigkeit bei komplexen Aufgaben.

Der Artikel Erratische Gedankensprünge beeinflussen die Leistung von Reasoning-LLMs wie o1 erschien zuerst auf THE-DECODER.de.