Mit dem Common Pile steht erstmals ein umfangreicher Textdatensatz aus offen lizenzierten Quellen zur Verfügung, der das Training großer Sprachmodelle ermöglichen soll – als Alternative zu urheberrechtlich fragwürdigen Webdaten.
Der Artikel Common Pile: Größter Datensatz für KI-Training mit lizenzierten Inhalten veröffentlicht erschien zuerst auf THE-DECODER.de.