
Das chinesische KI-Unternehmen Deepseek hat einen neuartigen Vision-Encoder vorgestellt, der Bildinformationen semantisch neu anordnet: nach Zusammenhängen statt nach Position. Das spart Token und verbessert die Dokumentenerkennung.
Der Artikel Deepseeks OCR 2-Modell verarbeitet Bilder so, wie das menschliche Auge sie wahrnimmt erschien zuerst auf The Decoder.