
OpenAI-Forscher zeigen, dass Reinforcement Learning auf erwünschte Verhaltenseigenschaften wie Wahrhaftigkeit und Korrigierbarkeit domänenübergreifend wirkt. Training auf Gesundheitsdaten verbesserte auch Täuschungserkennung, das Modell schnitt auf 44 von 53 Benchmarks besser ab. Der Ansatz unterscheidet sich grundlegend von Anthropics verfassungsbasierter Methode.
Der Artikel OpenAI will mit „Beneficial RL“ KI-Modelle breit und dauerhaft auf gutes Verhalten trimmen erschien zuerst auf The Decoder.

