
OpenAI-Forscher stellen mit „Deployment Simulation“ eine Methode vor, die anhand echter, anonymisierter Nutzergespräche vorhersagt, wie oft ein neues Modell nach Release Fehler macht. Bei GPT-5.4 sagte das Verfahren in 92 Prozent der Fälle korrekt voraus, ob ein Problem zu- oder abnimmt – herkömmliche Tests erreichten nur 54 Prozent. Entscheidender Vorteil: Die Modelle merken nicht, dass sie getestet werden.
Der Artikel Deployment Simulation: OpenAIs Methode gegen unrealistische KI-Sicherheitstests erschien zuerst auf The Decoder.

