FACTS-Benchmark: Auch Top-KI-Modelle kämpfen mit der Wahrheit

Ein neuer Benchmark von Google DeepMind soll die Zuverlässigkeit von KI-Modellen umfassender messen als bisher. Die Ergebnisse zeigen, dass selbst Spitzenmodelle wie Gemini 3 Pro und GPT-5.1 weit von Perfektion entfernt sind.

Der Artikel FACTS-Benchmark: Auch Top-KI-Modelle kämpfen mit der Wahrheit erschien zuerst auf The Decoder.