OpenAI hält Programmier-Benchmark SWE-bench Verified für nutzlos und fehlerhaft

OpenAI stellt den bekannten Coding-Test SWE-bench Verified infrage: Viele Aufgaben seien so gebaut, dass Tests selbst korrekte Fixes ablehnen, und zudem hätten viele KI-Modelle die Lösungen wohl schon im Training gesehen. Damit, so OpenAI, misst der Score weniger echtes Programmieren als „Schon mal gelernt“.

Der Artikel OpenAI hält Programmier-Benchmark SWE-bench Verified für nutzlos und fehlerhaft erschien zuerst auf The Decoder.