
Wie viele Bewerter benötigt ein guter KI-Benchmark? Eine neue Studie zeigt, dass drei bis fünf Bewerter pro Testbeispiel häufig nicht ausreichen. Ebenso entscheidend ist die richtige Verteilung des Budgets.
Der Artikel Google-Studie zeigt: KI-Benchmarks ignorieren menschliche Meinungsvielfalt erschien zuerst auf The Decoder.
