
ByteDance Seed zeigt, dass ein vergleichsweise kleines 7B-Modell Fragen zu sehr langen, bildbasierten Dokumenten zuverlässiger beantwortet als deutlich größere Modelle und das selbst bei Dokumenten, die viermal länger sind als im Training. Der Clou steckt darin, wie es lernt: Statt Seiten stur abzutippen, muss es Fragen beantworten und sich die passenden Stellen selbst zusammensuchen.
Der Artikel ByteDance zeigt, was multimodale KI beim Lesen langer Dokumente wirklich lernen muss erschien zuerst auf The Decoder.

