
Ein neuer Benchmark von Forschern aus der Schweiz und Deutschland zeigt, dass selbst Spitzenmodelle wie Claude Opus 4.5 mit aktivierter Websuche noch in knapp einem Drittel aller Fälle falsche Informationen produzieren. Besonders das sogenannte Content Grounding bleibt ein ungelöstes Problem.
Der Artikel Neuer Benchmark zeigt: KI-Modelle halluzinieren immer noch viel zu oft erschien zuerst auf The Decoder.