
Kleine Sprachmodelle scheitern an seltenen Aufgaben, weil häufige Aufgaben das Gelernte ständig wieder überschreiben. Eine neue Studie mit Modellen von 4 Millionen bis 4 Milliarden Parametern zeigt diesen Mechanismus im Detail und liefert einen pragmatischen Ausweg: Statt Modelle aufzublasen, kann es reichen, die Häufigkeit der Zielaufgabe in den Trainingsdaten gezielt zu erhöhen.
Der Artikel Warum große KI-Modelle bestimmte Aufgaben lernen und kleine nicht erschien zuerst auf The Decoder.