
Forscher der Carnegie Mellon University haben mit ExploitBench einen neuen Benchmark vorgestellt, der misst, wie weit KI-Agenten bei der Ausnutzung realer Sicherheitslücken in Googles V8-Engine kommen. Mythos liegt deutlich vor GPT-5.5, aber das kostet.
Der Artikel Neuer Benchmark zeigt: Claude Mythos und GPT-5.5 können echte Browser-Exploits selbstständig entwickeln erschien zuerst auf The Decoder.

