Schlagwort: Benchmark

Neuer Benchmark zeigt: Claude Mythos und GPT-5.5 können echte Browser-Exploits selbstständig entwickeln

Forscher der Carnegie Mellon University haben mit ExploitBench einen neuen Benchmark vorgestellt, der misst, wie weit KI-Agenten bei der Ausnutzung realer Sicherheitslücken in Googles V8-Engine kommen. Mythos liegt deutlich vor GPT-5.5, aber das kostet.

Der Artikel Neuer Benchmark zeigt: Claude Mythos und GPT-5.5 können echte Browser-Exploits selbstständig entwickeln erschien zuerst auf The Decoder.
Neuer Benchmark prüft KI-Videogeneratoren wie Physiklehrer – und gibt schlechte Noten

Eine neue Benchmark namens WorldReasonBench prüft Videogeneratoren nicht an Bildqualität, sondern an physikalischer und logischer Plausibilität. ByteDances Seedance 2.0 führt das Feld vor Veo 3.1 und Sora 2, kommerzielle Modelle scoren dabei rund doppelt so hoch wie Open-Source-Alternativen. Logisches Schlussfolgern bleibt für alle Modelle die mit Abstand schwerste Disziplin. Der Sprung vom Pixelgenerator zum echten Weltmodell bleibt aus.

Der Artikel Neuer Benchmark prüft KI-Videogeneratoren wie Physiklehrer – und gibt schlechte Noten erschien zuerst auf The Decoder.
Gleicher Prompt, andere Moral: Wie KI-Modelle bei ethischen Dilemmata auseinanderdriften

Ein neuer Benchmark konfrontiert die führenden Sprachmodelle mit 100 ethischen Alltagsszenarien, vom Datenmissbrauch im Vertrieb bis zur Protokollverletzung in der Onkologie. Wer entscheidet, was eine KI darf – und nach wessen Ethik?

Der Artikel Gleicher Prompt, andere Moral: Wie KI-Modelle bei ethischen Dilemmata auseinanderdriften erschien zuerst auf The Decoder.
500 Banker bewerten KI-Ergebnisse und finden sie durchweg unbrauchbar für den Kundenkontakt

Ein neuer Benchmark prüft, ob Modelle wie GPT-5.4 oder Claude Opus 4.6 die Arbeit von Junior-Investmentbankern übernehmen können. Banker stufen keinen einzigen KI-Output als abgabereif ein; die generierten Inhalte sind zu ungenau oder schlicht fehlerhaft. Viele würden den Output aber als Grundlage für die Weiterarbeit nutzen.

Der Artikel 500 Banker bewerten KI-Ergebnisse und finden sie durchweg unbrauchbar für den Kundenkontakt erschien zuerst auf The Decoder.
Neuer KI-Benchmark RealChart2Code: Selbst Top-Modelle scheitern an komplexen Diagrammen

Der Benchmark RealChart2Code testet 14 führende KI-Modelle bei der Generierung komplexer Visualisierungen aus realen Datensätzen. Selbst die besten proprietären Modelle verlieren dabei fast die Hälfte ihrer Leistung im Vergleich zu einfacheren Tests.

Der Artikel Neuer KI-Benchmark RealChart2Code: Selbst Top-Modelle scheitern an komplexen Diagrammen erschien zuerst auf The Decoder.
Cohere veröffentlicht neues Open-Source-Modell zur automatischen Spracherkennung

Cohere stellt ein Open-Source-Spracherkennungsmodell vor, das laut Benchmark alle Konkurrenten schlägt, auch OpenAIs Whisper.

Der Artikel Cohere veröffentlicht neues Open-Source-Modell zur automatischen Spracherkennung erschien zuerst auf The Decoder.
ARC-AGI-3: Top-KI-Modelle schaffen unter 1 Prozent bei Aufgaben, die Menschen einfach lösen

Der neue Benchmark ARC-AGI-3 lässt KI-Systeme in interaktiven Spielumgebungen antreten, die Menschen mühelos meistern. Kein Frontier-Modell knackt die 1-Prozent-Marke – auch weil der Benchmark ihnen ihre größten Vorteile nimmt.

Der Artikel ARC-AGI-3: Top-KI-Modelle schaffen unter 1 Prozent bei Aufgaben, die Menschen einfach lösen erschien zuerst auf The Decoder.
ElevenLabs Scribe v2 schlägt Google und OpenAI im neuen Speech-to-Text-Benchmark

ElevenLabs und Google liefern sich ein Kopf-an-Kopf-Rennen um die beste Spracherkennung: Ein neuer Benchmark zeigt, wer vorn liegt.

Der Artikel ElevenLabs Scribe v2 schlägt Google und OpenAI im neuen Speech-to-Text-Benchmark erschien zuerst auf The Decoder.
Darum warnt OpenAI jetzt vor dem wichtigsten KI-Benchmark

Nano Banana

Kurzfassung
▾

Quellen
▾

OpenAI stuft den bekannten Benchmark SWE-bench Verified offiziell als unbrauchbar für die Evaluierung moderner KI-Modelle ein.
Fehlerhafte Unit-Tests und bereits im Training gelernte Open-Source-Lösungen verzerren die tatsächlichen Coding-Fähigkeiten der Systeme massiv.
Die Industrie soll stattdessen auf SWE-bench Pro wechseln, der komplexe Software-Architekturen prüft und private Codebasen nutzt.
Dadurch wird simples Auswendiglernen verhindert und die Leistungsmessung spiegelt wieder die echte professionelle Softwareentwicklung wider.

OpenAI – Why SWE-bench Verified no longer measures frontier coding capabilities

OpenAI stuft den etablierten Programmier-Benchmark SWE-bench Verified offiziell als unbrauchbar für modernste KI-Modelle ein. Aufgrund von fehlerhaften Tests und Datenkontamination liefert die Metrik keine verlässlichen Aussagen mehr über die tatsächlichen Coding-Fähigkeiten der Systeme. Das Unternehmen empfiehlt stattdessen den Wechsel auf den deutlich anspruchsvolleren SWE-bench Pro. Anzeige Fehlerhafte Tests verzerren das Bild Die Abwertung durch OpenAI entzieht dem bisherigen Branchenstandard für KI-Agenten die Grundlage. Bislang verließ sich die Industrie auf SWE-bench Verified, um das autonome Lösen von realen Software-Problemen zu evaluieren. Zuletzt näherten sich Spitzenmodelle wie Claude Opus 4.6 oder GPT-5.2 auf dem Leaderboard einer Genauigkeit von fast 80 Prozent an. Diese scheinbar makellose Erfolgsquote hält jedoch einer genaueren Prüfung nicht stand. Eine gezielte Analyse offenbarte, dass bei knapp 60 Prozent der untersuchten Fehlschläge der generierte Code völlig korrekt funktionierte. Die Einreichungen scheiterten schlicht an schlecht konzipierten Unit-Tests. So wurden funktionierende Lösungen vom System abgelehnt, nur weil das Sprachmodell eine unerwartete API nutzte oder die Prüfroutine bereits im unmodifizierten Originalcode Fehler auswarf. Zusätzlich entwertet das anhaltende Problem der Datenkontamination die Messergebnisse massiv. Da der Benchmark auf öffentlich zugänglichen Open-Source-Repositories basiert, haben viele Modelle die spezifischen Lösungen bereits während ihrer primären Trainingsphase aufgenommen. + Quelle: epochai Der Wechsel zu belastbaren Metriken Um den technischen Fortschritt im Software Engineering wieder realistisch abzubilden, rät OpenAI der Branche nun dringend zur Nutzung von SWE-bench Pro. Dieser neuere Benchmark verzichtet auf triviale Code-Korrekturen und erfordert stattdessen tiefgreifende, dateiübergreifende Anpassungen in verschiedenen Programmiersprachen wie Go oder TypeScript. KI-Systeme müssen die gesamte Architektur einer Software erfassen, anstatt isolierte Fehler abzuarbeiten. Ein entscheidender Vorteil der Pro-Variante ist der physische Schutz vor „Training Leakage“. Der Benchmark nutzt neben streng lizenziertem Copyleft-Code auch einen privaten Datensatz aus proprietären Codebasen kommerzieller Start-ups, auf die die Sprachmodelle beim Training definitiv keinen Zugriff hatten. Die massiv erhöhte Schwierigkeit spiegelt sich bereits schonungslos in den aktuellen Auswertungen wider. Modelle, die im alten Verified-Benchmark dominierten, stürzen unter den neuen Bedingungen teilweise drastisch ab. Die Leistungsmessung von KI-Systemen im Programmierbereich orientiert sich damit wieder stärker an der harten Realität der professionellen Softwareentwicklung.
Warum KI das Urlaubsfoto vom letzten Sommer nicht finden kann

Ein neuer Benchmark stellt KI-Modelle vor eine scheinbar einfache Aufgabe: bestimmte Fotos in einer persönlichen Sammlung finden. Die Ergebnisse fallen ernüchternd aus.

Der Artikel Warum KI das Urlaubsfoto vom letzten Sommer nicht finden kann erschien zuerst auf The Decoder.