Sehen, hören, coden: Alibabas Qwen3.5-Omni macht alles gleichzeitig

Werbegrafik von Alibaba zeigt zwei Teddybären in traditioneller chinesischer Kleidung. Der linke Bär sitzt am Schreibtisch vor einem Monitor und repräsentiert Qwen3.5-Omni-Plus mit Funktionen wie SOTA Performance, Detailed Audio-Visual Captioning, Native Multimodal und Extensive Multilingual. Der rechte Bär hält ein Smartphone und steht für Qwen3.5-Omni-Plus-Realtime mit Voice Control, WebSearch Tool, Voice Clone und Semantic Interruption.

Alibaba veröffentlicht Qwen3.5-Omni, ein omnimodales KI-Modell mit Text-, Bild-, Audio- und Videoverständnis. Es soll Gemini 3.1 Pro bei Audio-Aufgaben übertreffen und beherrscht eine neue Fähigkeit: Programmieren per gesprochener Anweisung und Videoinput.

Der Artikel Sehen, hören, coden: Alibabas Qwen3.5-Omni macht alles gleichzeitig erschien zuerst auf The Decoder.