
Eine Studie aus dem Anthropic Fellows Program zeigt: Trainiert man ein Sprachmodell auf Dokumenten, die seine Werte erklären, bevor es konkretes Verhalten lernt, sinkt agentisches Fehlverhalten drastisch. Bei Qwen3-32B fiel die Fehlausrichtungsrate von 54 auf sieben Prozent – mit 10- bis 60-mal weniger Fine-Tuning-Daten als bisherige Methoden.
Der Artikel Sprachmodelle halten sich besser an Werte, wenn sie zuerst verstehen, warum sie sich so verhalten sollen erschien zuerst auf The Decoder.