Kleine – MEIDCRAFT

Grafik: Kleines Modell aus Datenblöcken auf rotem Seil vor anrollender Daten- und Dokumentenwelle.

Kleine Sprachmodelle scheitern an seltenen Aufgaben, weil häufige Aufgaben das Gelernte ständig wieder überschreiben. Eine neue Studie mit Modellen von 4 Millionen bis 4 Milliarden Parametern zeigt diesen Mechanismus im Detail und liefert einen pragmatischen Ausweg: Statt Modelle aufzublasen, kann es reichen, die Häufigkeit der Zielaufgabe in den Trainingsdaten gezielt zu erhöhen.

Der Artikel Warum große KI-Modelle bestimmte Aufgaben lernen und kleine nicht erschien zuerst auf The Decoder.

Schlagwort: Kleine

Warum große KI-Modelle bestimmte Aufgaben lernen und kleine nicht