Mathe-Benchmark zeigt: KI-Modelle liefern selbstbewusst Antworten auf unlösbare Aufgaben

Tafel mit mathematischen Formeln im Hintergrund und Prüfungsbogen mit rot markierten, unleserlichen KI-Antworten.

Ein Konsortium aus Mathematikern hat mit SOOHAK einen neuen KI-Benchmark aus 439 handgeschriebenen Aufgaben vorgelegt, darunter 99 absichtlich unlösbare Probleme. Googles Gemini 3 Pro führt mit 30 Prozent auf dem Forschungslevel. Doch beim Erkennen fehlerhafter Aufgaben scheitern alle Modelle unter 50 Prozent. Mehr Rechenleistung verbessert das Lösen, macht die Modelle aber nicht zurückhaltender beim Eingestehen, dass eine Aufgabe gar keine Lösung hat. Der Benchmark schließt damit eine Lücke zwischen spektakulären Einzeltreffern und der breiten Forschungskompetenz, die KI-Systeme bisher vermissen lassen.

Der Artikel Mathe-Benchmark zeigt: KI-Modelle liefern selbstbewusst Antworten auf unlösbare Aufgaben erschien zuerst auf The Decoder.

TRAUMWELT.exe ist kein gewöhnliches Buch. Es ist ein Blick durch den Spalt einer Tür, die sich längst geöffnet hat – in eine Welt, in der Maschinen träumen, Städte flüstern und Ethik verhandelbar geworden ist. Eine Sammlung visionärer Geschichten, die an der Schwelle zwischen Fiktion und Realität tanzen – so plausibel erzählt, dass du dich unweigerlich fragst: Ist das noch Zukunft oder schon Gegenwart?

Leser:innen sagen:

„Wie Black Mirror, nur philosophischer und näher an der Wirklichkeit.“, Lisa M.
„Jede Geschichte ist ein Gedankensprung in eine andere Zukunft.“, Stefan K.
„Beunruhigend schön. Eine literarische Simulation unserer nahen Zukunft.“, Albert B.