
Benchmarks sollen objektiv messen, wie gut KI-Modelle sind. Doch laut einer Analyse von Epoch AI hängen die Ergebnisse stark davon ab, wie genau der Test durchgeführt wird. Die Forschungsorganisation identifiziert zahlreiche Variablen, die selten offengelegt werden, aber erheblichen Einfluss haben.
Der Artikel KI-Agenten können Benchmarks „hacken“: Warum Testergebnisse oft wenig aussagen erschien zuerst auf The Decoder.

