
Große Sprachmodelle lernen aus Webdaten. Doch welche Seiten im Trainingsdatensatz landen, hängt stark vom HTML-Extraktor ab. Forscher bei Apple, Stanford und der University of Washington zeigen, dass drei gängige Werkzeuge überraschend unterschiedliche Teile des Webs erschließen: Nur 39 Prozent der Seiten überleben bei mehr als einem Extraktor.
Der Artikel KI-Daten: Aktuelles Sprachmodell-Training verschenkt große Teile des Internets erschien zuerst auf The Decoder.

