Schlagwort: Schwächen

KI-Modelle erkennen oft nicht, was sie sehen

Ein neuer Härtetest für multimodale KI-Modelle offenbart fundamentale Schwächen: Der Benchmark „WorldVQA“ prüft, ob KI-Modelle visuelle Objekte tatsächlich erkennen. Selbst Spitzenreiter wie Gemini 3 Pro scheitern an der 50-Prozent-Marke und neigen zu massiver Selbstüberschätzung, wenn sie mit spezifischen Details statt generischen Begriffen konfrontiert werden.

Der Artikel KI-Modelle erkennen oft nicht, was sie sehen erschien zuerst auf The Decoder.
KI-Rechercheagenten erfinden lieber Fakten als zuzugeben, dass sie etwas nicht wissen

Eine neue Studie des AI-Agent-Teams des chinesischen Smartphoneherstellers Oppo zeigt die systematischen Schwächen von Deep-Research-Systemen, die automatisch ausführliche Rechercheberichte erstellen sollen. Fast ein Fünftel aller Fehler entsteht, weil die Systeme plausibel klingende, aber erfundene Inhalte generieren.

Der Artikel KI-Rechercheagenten erfinden lieber Fakten als zuzugeben, dass sie etwas nicht wissen erschien zuerst auf The Decoder.
Neuer Benchmark entlarvt große Wissenslücken bei KI-Modellen – nur vier schaffen positive Bewertung

Ein neuer Benchmark von Artificial Analysis zeigt erschreckende Schwächen bei der faktischen Zuverlässigkeit von KI-Modellen auf. Von 40 getesteten Modellen erreichen nur vier einen positiven Score, Googles neues Gemini 3 Pro führt deutlich.

Der Artikel Neuer Benchmark entlarvt große Wissenslücken bei KI-Modellen – nur vier schaffen positive Bewertung erschien zuerst auf The Decoder.
Die große KI-Lüge?

Nano Banana

Kurzfassung
▾

Quellen
▾

Eine internationale Studie hat 445 KI-Benchmark-Artikel untersucht. Das Ergebnis: Fast alle weisen massive methodische Schwächen auf. Nur 16 Prozent der Tests nutzen wissenschaftlich rigorose Methoden. Dies stellt die Zuverlässigkeit von KI-Leistungsmessungen und den oft zitierten Fortschritt fundamental infrage.

Die Studie als PDF-Paper Hyper.ai – AI-Benchmarks untergraben Glaubwürdigkeit Hacker News – Study identifies weaknesses in how AI systems are evaluated

Die Jagd nach der besten KI treibt die Branche an. Doch wie misst man Leistung überhaupt? Eine neue Studie erschüttert die Grundfesten dieser Messungen. Ein Team hat hunderte KI-Benchmarks analysiert und stellt fest: Die meisten sind wissenschaftlich unbrauchbar. Ein Fundament mit tiefen Rissen Ein internationales Forschungsteam hat die Messlatten der KI-Branche selbst auf den Prüfstand gestellt. Die Wissenschaftler analysierten 445 Benchmark-Artikel aus den wichtigsten KI-Konferenzen. Ihr Fazit ist ernüchternd. Die Studie zeigt massive methodische Schwächen bei fast allen gängigen Tests für Sprachmodelle auf. Das Team fand heraus, dass nur 16 Prozent der untersuchten Benchmarks wissenschaftlich rigorose Methoden anwenden. Konkret mangelt es an klaren Definitionen, was genau gemessen wird. Auch die Auswahl der Testdaten und die angewandten statistischen Verfahren halten einer strengen Prüfung oft nicht stand. + Quelle: https://openreview.net/pdf?id=mdA5lVvNcU Fortschritt auf wackeligem Boden Diese Ergebnisse werfen ein kritisches Licht auf den vermeintlichen Fortschritt im KI-Sektor. Wenn die Messinstrumente fehlerhaft sind, ist auch die Rangliste der Modelle unzuverlässig. Die gesamte Bewertung, welches Sprachmodell „besser“ ist, basiert womöglich auf einer fehlerhaften Grundlage. Die Konsequenzen gehen über reine Leistungsvergleiche hinaus. Auch die Sicherheit von KI-Systemen wird mit ähnlichen Methoden bewertet. Die Studie warnt, dass fehlerhafte Benchmarks dazu führen könnten, dass Sicherheitstests „irrelevant oder sogar irreführend“ sind. Das Vertrauen in die Zuverlässigkeit und Sicherheit der Technologie steht damit auf dem Spiel. Die Veröffentlichung ist ein Weckruf an die Forschungsgemeinschaft. Die Autoren fordern ein Umdenken und die Entwicklung robuster, wissenschaftlich fundierter Standards. Ohne verlässliche Messungen tappe die KI-Entwicklung weitgehend im Dunkeln. + Quelle: https://openreview.net/pdf?id=mdA5lVvNcU
Studie deckt massive Schwächen in KI-Benchmarks auf

Ein internationales Forschungsteam hat die Validität von Large-Language-Model-Benchmarks systematisch untersucht und dabei erhebliche Mängel aufgedeckt. Die Analyse von 445 Benchmark-Artikeln aus führenden KI-Konferenzen zeigt, dass fast alle Bewertungsverfahren fundamentale methodische Schwächen aufweisen.

Der Artikel Studie deckt massive Schwächen in KI-Benchmarks auf erschien zuerst auf The Decoder.
Apple sucht KI-Forscher für Reasoning – trotz eigener Zweifel an der Technologie

Apple hat kürzlich eine viel beachtete Studie veröffentlicht, in der eigene Forscher grundlegende Schwächen von Reasoning-Modellen aufzeigten. Nun sucht das Unternehmen dennoch eine Forscherin oder einen Forscher mit Schwerpunkt auf genau diesen Themen.

Der Artikel Apple sucht KI-Forscher für Reasoning – trotz eigener Zweifel an der Technologie erschien zuerst auf THE-DECODER.de.
Regierungsstudie deckt KI-Sicherheitsmängel auf – und verschwindet in der Schublade

Eine bislang unveröffentlichte Red-Teaming-Studie der US-Regierung zeigt gravierende Schwächen im offiziellen Rahmenwerk zur Bewertung von KI-Risiken. Politische Gründe sollen zur Nicht-Veröffentlichung geführt haben.

Der Artikel Regierungsstudie deckt KI-Sicherheitsmängel auf – und verschwindet in der Schublade erschien zuerst auf THE-DECODER.de.