
Die ARC Prize Foundation hat 160 Spielverläufe von OpenAIs GPT-5.5 und Anthropics Opus 4.7 im Benchmark ARC-AGI-3 ausgewertet. Die Ergebnisse offenbaren drei systematische Fehlermuster, die erklären, warum beide Modelle unter 1 Prozent bleiben.
Der Artikel Selbst die neuesten KI-Modelle machen drei systematische Denkfehler, zeigt neue Analyse erschien zuerst auf The Decoder.
