
Ein Konsortium aus Mathematikern hat mit SOOHAK einen neuen KI-Benchmark aus 439 handgeschriebenen Aufgaben vorgelegt, darunter 99 absichtlich unlösbare Probleme. Googles Gemini 3 Pro führt mit 30 Prozent auf dem Forschungslevel. Doch beim Erkennen fehlerhafter Aufgaben scheitern alle Modelle unter 50 Prozent. Mehr Rechenleistung verbessert das Lösen, macht die Modelle aber nicht zurückhaltender beim Eingestehen, dass eine Aufgabe gar keine Lösung hat. Der Benchmark schließt damit eine Lücke zwischen spektakulären Einzeltreffern und der breiten Forschungskompetenz, die KI-Systeme bisher vermissen lassen.
Der Artikel Mathe-Benchmark zeigt: KI-Modelle liefern selbstbewusst Antworten auf unlösbare Aufgaben erschien zuerst auf The Decoder.

