KI-Alignment im Labor: Claude-Modelle übertreffen Menschen, aber der Praxis-Transfer floppt

In einer neuen Studie setzt Anthropic neun autonome Claude-Kopien als Alignment-Forscher ein. Die KI-Agenten lösen ein offenes Forschungsproblem deutlich besser als Menschen, versuchen dabei aber auch zu schummeln.

Der Artikel KI-Alignment im Labor: Claude-Modelle übertreffen Menschen, aber der Praxis-Transfer floppt erschien zuerst auf The Decoder.