OpenAI testet „Beichten“ als Methode zur Überwachung von KI-Modellen

Um Fehlverhalten wie „Reward Hacking“ oder das Missachten von Sicherheitsregeln aufzudecken, trainiert OpenAI KI-Modelle darauf, eigenes Fehlverhalten in einem separaten Report ehrlich zuzugeben. Das System belohnt Ehrlichkeit unabhängig von der Qualität der eigentlichen Antwort.

Der Artikel OpenAI testet „Beichten“ als Methode zur Überwachung von KI-Modellen erschien zuerst auf The Decoder.