
Ein neuer Benchmark von Google DeepMind soll die Zuverlässigkeit von KI-Modellen umfassender messen als bisher. Die Ergebnisse zeigen, dass selbst Spitzenmodelle wie Gemini 3 Pro und GPT-5.1 weit von Perfektion entfernt sind.
Der Artikel FACTS-Benchmark: Auch Top-KI-Modelle kämpfen mit der Wahrheit erschien zuerst auf The Decoder.
