Google-Studie zeigt: KI-Benchmarks ignorieren menschliche Meinungsvielfalt

Farbige Kontur- und Punktmuster überlagern eine gesichtslose Menschenbüste und symbolisieren Datenvisualisierung menschlicher Benchmarks.

Wie viele Bewerter benötigt ein guter KI-Benchmark? Eine neue Studie zeigt, dass drei bis fünf Bewerter pro Testbeispiel häufig nicht ausreichen. Ebenso entscheidend ist die richtige Verteilung des Budgets.

Der Artikel Google-Studie zeigt: KI-Benchmarks ignorieren menschliche Meinungsvielfalt erschien zuerst auf The Decoder.