
„Count Anything“ soll als erstes KI-Modell per Texteingabe Objekte in beliebigen Bildtypen zählen können, von Menschenmengen bis zu Zellproben unter dem Mikroskop. Im Vergleichstest halbiert es die Fehlerrate gegenüber bisherigen Systemen. Bei extremer Objektdichte und mehrdeutigen Begriffen stößt aber auch dieser Ansatz an Grenzen.
Der Artikel KI-Modell „Count Anything“ löst ein Problem, an dem multimodale KI-Modelle bisher scheitern erschien zuerst auf The Decoder.