Schlagwort: Benchmark

  • Neuer KI-Benchmark RealChart2Code: Selbst Top-Modelle scheitern an komplexen Diagrammen

    Collage aus Diagrammfenstern, Farbschemata und Kabeln als Symbol für die Komplexität beim Umsetzen von Visualisierungen in Code.

    Der Benchmark RealChart2Code testet 14 führende KI-Modelle bei der Generierung komplexer Visualisierungen aus realen Datensätzen. Selbst die besten proprietären Modelle verlieren dabei fast die Hälfte ihrer Leistung im Vergleich zu einfacheren Tests.

    Der Artikel Neuer KI-Benchmark RealChart2Code: Selbst Top-Modelle scheitern an komplexen Diagrammen erschien zuerst auf The Decoder.

  • Cohere veröffentlicht neues Open-Source-Modell zur automatischen Spracherkennung

    Das Logo von Cohere.

    Cohere stellt ein Open-Source-Spracherkennungsmodell vor, das laut Benchmark alle Konkurrenten schlägt, auch OpenAIs Whisper.

    Der Artikel Cohere veröffentlicht neues Open-Source-Modell zur automatischen Spracherkennung erschien zuerst auf The Decoder.

  • ARC-AGI-3: Top-KI-Modelle schaffen unter 1 Prozent bei Aufgaben, die Menschen einfach lösen

    Der neue Benchmark ARC-AGI-3 lässt KI-Systeme in interaktiven Spielumgebungen antreten, die Menschen mühelos meistern. Kein Frontier-Modell knackt die 1-Prozent-Marke – auch weil der Benchmark ihnen ihre größten Vorteile nimmt.

    Der Artikel ARC-AGI-3: Top-KI-Modelle schaffen unter 1 Prozent bei Aufgaben, die Menschen einfach lösen erschien zuerst auf The Decoder.

  • ElevenLabs Scribe v2 schlägt Google und OpenAI im neuen Speech-to-Text-Benchmark

    ElevenLabs und Google liefern sich ein Kopf-an-Kopf-Rennen um die beste Spracherkennung: Ein neuer Benchmark zeigt, wer vorn liegt.

    Der Artikel ElevenLabs Scribe v2 schlägt Google und OpenAI im neuen Speech-to-Text-Benchmark erschien zuerst auf The Decoder.

  • Darum warnt OpenAI jetzt vor dem wichtigsten KI-Benchmark

    Sam Altman haut auf den SWE Bench Verified drauf

    Nano Banana

    Kurzfassung

    Quellen

    OpenAI stuft den bekannten Benchmark SWE-bench Verified offiziell als unbrauchbar für die Evaluierung moderner KI-Modelle ein.
    Fehlerhafte Unit-Tests und bereits im Training gelernte Open-Source-Lösungen verzerren die tatsächlichen Coding-Fähigkeiten der Systeme massiv.
    Die Industrie soll stattdessen auf SWE-bench Pro wechseln, der komplexe Software-Architekturen prüft und private Codebasen nutzt.
    Dadurch wird simples Auswendiglernen verhindert und die Leistungsmessung spiegelt wieder die echte professionelle Softwareentwicklung wider.

    OpenAI – Why SWE-bench Verified no longer measures frontier coding capabilities

    OpenAI stuft den etablierten Programmier-Benchmark SWE-bench Verified offiziell als unbrauchbar für modernste KI-Modelle ein. Aufgrund von fehlerhaften Tests und Datenkontamination liefert die Metrik keine verlässlichen Aussagen mehr über die tatsächlichen Coding-Fähigkeiten der Systeme. Das Unternehmen empfiehlt stattdessen den Wechsel auf den deutlich anspruchsvolleren SWE-bench Pro. Anzeige Fehlerhafte Tests verzerren das Bild Die Abwertung durch OpenAI entzieht dem bisherigen Branchenstandard für KI-Agenten die Grundlage. Bislang verließ sich die Industrie auf SWE-bench Verified, um das autonome Lösen von realen Software-Problemen zu evaluieren. Zuletzt näherten sich Spitzenmodelle wie Claude Opus 4.6 oder GPT-5.2 auf dem Leaderboard einer Genauigkeit von fast 80 Prozent an. Diese scheinbar makellose Erfolgsquote hält jedoch einer genaueren Prüfung nicht stand. Eine gezielte Analyse offenbarte, dass bei knapp 60 Prozent der untersuchten Fehlschläge der generierte Code völlig korrekt funktionierte. Die Einreichungen scheiterten schlicht an schlecht konzipierten Unit-Tests. So wurden funktionierende Lösungen vom System abgelehnt, nur weil das Sprachmodell eine unerwartete API nutzte oder die Prüfroutine bereits im unmodifizierten Originalcode Fehler auswarf. Zusätzlich entwertet das anhaltende Problem der Datenkontamination die Messergebnisse massiv. Da der Benchmark auf öffentlich zugänglichen Open-Source-Repositories basiert, haben viele Modelle die spezifischen Lösungen bereits während ihrer primären Trainingsphase aufgenommen. + Quelle: epochai Der Wechsel zu belastbaren Metriken Um den technischen Fortschritt im Software Engineering wieder realistisch abzubilden, rät OpenAI der Branche nun dringend zur Nutzung von SWE-bench Pro. Dieser neuere Benchmark verzichtet auf triviale Code-Korrekturen und erfordert stattdessen tiefgreifende, dateiübergreifende Anpassungen in verschiedenen Programmiersprachen wie Go oder TypeScript. KI-Systeme müssen die gesamte Architektur einer Software erfassen, anstatt isolierte Fehler abzuarbeiten. Ein entscheidender Vorteil der Pro-Variante ist der physische Schutz vor „Training Leakage“. Der Benchmark nutzt neben streng lizenziertem Copyleft-Code auch einen privaten Datensatz aus proprietären Codebasen kommerzieller Start-ups, auf die die Sprachmodelle beim Training definitiv keinen Zugriff hatten. Die massiv erhöhte Schwierigkeit spiegelt sich bereits schonungslos in den aktuellen Auswertungen wider. Modelle, die im alten Verified-Benchmark dominierten, stürzen unter den neuen Bedingungen teilweise drastisch ab. Die Leistungsmessung von KI-Systemen im Programmierbereich orientiert sich damit wieder stärker an der harten Realität der professionellen Softwareentwicklung.

  • Warum KI das Urlaubsfoto vom letzten Sommer nicht finden kann

    Montage aus unscharfen Rohfotos und farbig gerahmten Natur- und Picknick-Bildern, veranschaulicht KI-gestützte Bildsuche

    Ein neuer Benchmark stellt KI-Modelle vor eine scheinbar einfache Aufgabe: bestimmte Fotos in einer persönlichen Sammlung finden. Die Ergebnisse fallen ernüchternd aus.

    Der Artikel Warum KI das Urlaubsfoto vom letzten Sommer nicht finden kann erschien zuerst auf The Decoder.

  • Eine KI lügt mit Internet-Wissen nicht mehr? Falsch gedacht!

    Ein Mini Roboter sagt, du bist der Beste!

    Nano Banana

    Kurzfassung

    Quellen

    Der neue Benchmark HalluHard zeigt, dass KI-Modelle trotz Internetzugriff in längeren Dialogen weiterhin häufig falsche Fakten generieren. Besonders bei komplexen Gesprächsverläufen scheitern die Algorithmen daran, gefundene Informationen logisch korrekt in den Kontext einzubetten. Die Studie widerlegt die Annahme, dass die RAG-Technologie (Retrieval Augmented Generation) das Halluzinationsproblem bei Sprachmodellen vollständig löst. Anwender müssen KI-Antworten weiterhin kritisch prüfen, da die Fehleranfälligkeit bei fortlaufenden Nachfragen signifikant ansteigt.

    HalluHard: A Hard Multi-Turn Hallucination Benchmark (arXiv Abstract)

    HalluHard: A Hard Multi-Turn Hallucination Benchmark (PDF)

    HalluHard Projektseite / Leaderboard

    epfml/halluhard (GitHub Repository)

    Trotz integrierter Websuche und riesiger Kontextfenster bleiben Faktenfehler die Achillesferse aktueller KI-Modelle. Der neue Benchmark „HalluHard“ zeigt auf, dass Sprachmodelle besonders in fortlaufenden Dialogen deutlich häufiger halluzinieren, als es die Herstellerversprechen vermuten lassen. Die Integration von Echtzeit-Internetzugriffen (Retrieval Augmented Generation, kurz RAG) galt lange als das effektivste Mittel gegen die chronische „Fantasie“ großer Sprachmodelle (LLMs). Die Theorie: Wenn das Modell Zugriff auf aktuelle Quellen hat, muss es nichts erfinden. Eine neue Untersuchung von Forschern der EPFL und weiterer Institute widerlegt diese Annahme nun teilweise. Mit dem Benchmark „HalluHard“ demonstrieren sie, dass die bloße Verfügbarkeit von Informationen nicht ausreicht, um Halluzinationen in komplexen Gesprächsverläufen zu verhindern. + Quelle: arxiv.org/abs/2602.01031 Der Kontext als Fehlerquelle „HalluHard“ unterscheidet sich von bisherigen Testszenarien durch den Fokus auf Multi-Turn-Dialoge. Während viele Benchmarks lediglich einzelne Frage-Antwort-Paare bewerten, simuliert dieser Test realistische Unterhaltungen, in denen Nutzer nachfragen, den Kontext wechseln oder präzisere Details fordern. Genau hier brechen die Leistungen der Modelle ein. Laut der Studie steigt die Fehlerrate signifikant an, sobald ein Dialog über mehrere Runden geführt wird. Die Modelle scheitern oft am sogenannten „Content Grounding“. Das bedeutet, sie sind technisch zwar in der Lage, die korrekte Information per Websuche zu finden, scheitern aber daran, diese logisch konsistent in den bestehenden Gesprächsverlauf einzubetten. Statt die gefundene Quelle korrekt wiederzugeben, vermischen die Algorithmen diese oft mit veraltetem Trainingswissen oder erfinden plausible, aber falsche Details hinzu, um den Antwortfluss aufrechtzuerhalten. Anzeige Systemische Überforderung Ein Kernproblem scheint die Priorisierung von Informationen zu sein. LLMs stehen in einem ständigen Konflikt zwischen ihrem parametrischen Gedächtnis (dem antrainierten Wissen) und dem Kontext-Wissen (den Suchergebnissen). In einfachen Szenarien gewinnt meist die Suchmaschine. In komplexen „HalluHard“-Szenarien, wo Nuancen entscheidend sind, greift das Modell jedoch oft fälschlicherweise auf interne Muster zurück, wenn die Suchergebnisse nicht eindeutig genug interpretiert werden können. Besonders kritisch ist dies für die geplante Autonomie von KI-Agenten. Wenn ein System bereits in einem kontrollierten Chat-Benchmark den Faden verliert und Quellen falsch attribuiert, sind komplexe Aufgaben im Unternehmensumfeld risikobehaftet. Fazit: Distanz zur Realität Die Ergebnisse zeigen, dass die Skalierung der Modellgröße und das bloße Anbinden an das Internet das Halluzinationsproblem nicht final lösen. Die Fehlerquote in anspruchsvollen Dialogen bleibt hoch. Für Anwender bedeutet dies weiterhin: Eine faktische Kontrolle jeder KI-Aussage ist unabdingbar, besonders wenn der Chatverlauf länger wird. Vertrauen ist gut, Verifizierung bleibt besser.

  • Neuer Benchmark zeigt: KI-Modelle halluzinieren immer noch viel zu oft

    Webresultat-Fenster senden Strahlen auf überlappende transparente Blätter und symbolisieren Quellenaggregation.

    Ein neuer Benchmark von Forschern aus der Schweiz und Deutschland zeigt, dass selbst Spitzenmodelle wie Claude Opus 4.5 mit aktivierter Websuche noch in knapp einem Drittel aller Fälle falsche Informationen produzieren. Besonders das sogenannte Content Grounding bleibt ein ungelöstes Problem.

    Der Artikel Neuer Benchmark zeigt: KI-Modelle halluzinieren immer noch viel zu oft erschien zuerst auf The Decoder.

  • KI-Modelle erkennen oft nicht, was sie sehen

    Ein neuer Härtetest für multimodale KI-Modelle offenbart fundamentale Schwächen: Der Benchmark „WorldVQA“ prüft, ob KI-Modelle visuelle Objekte tatsächlich erkennen. Selbst Spitzenreiter wie Gemini 3 Pro scheitern an der 50-Prozent-Marke und neigen zu massiver Selbstüberschätzung, wenn sie mit spezifischen Details statt generischen Begriffen konfrontiert werden.

    Der Artikel KI-Modelle erkennen oft nicht, was sie sehen erschien zuerst auf The Decoder.

  • GPT-5.2 dominiert OpenAIs neuen Wissenschafts-Test, scheitert aber an komplexen Forschungsaufgaben

    OpenAI stellt mit FrontierScience einen neuen Benchmark vor, der KI-Modelle auf Olympiade- und Forschungsniveau testet. Das hauseigene GPT-5.2 schneidet dabei am besten ab, doch die Aufgaben offenbaren auch die Grenzen aktueller Systeme.

    Der Artikel GPT-5.2 dominiert OpenAIs neuen Wissenschafts-Test, scheitert aber an komplexen Forschungsaufgaben erschien zuerst auf The Decoder.