
Eine Studie von Forschenden aus dem MATS-Programm, Redwood Research und Anthropic untersucht ein Sicherheitsproblem, das mit immer fähigeren KI-Systemen relevanter wird: sogenanntes „Sandbagging“, bei dem ein Modell seine wahren Fähigkeiten absichtlich zurückhält und scheinbar adäquate, aber unterdurchschnittliche Arbeit liefert.
Der Artikel Weil KI-Modelle absichtlich schlecht arbeiten: Forscher suchen Wege aus der Sandbagging-Falle erschien zuerst auf The Decoder.
