
Forscher der Princeton University haben mit CEO-Bench einen Test gebaut, in dem KI-Agenten ein fiktives Software-Unternehmen über 500 simulierte Tage leiten müssen. Die meisten aktuellen Modelle gehen pleite, und eine simple Faustregel ohne KI schlägt fast alle.
Der Artikel KI-Agenten als Start-up-Chef: Neuer Benchmark lässt Sprachmodelle 500 Tage ein Unternehmen führen erschien zuerst auf The Decoder.

