Schlagwort: Alibaba

  • Alibabas PANDA-System findet Tumore, die Ärzte übersehen

    Bauchspeicheldrüsenkrebs ist eine der tödlichsten Krebsarten – vor allem, weil er meist zu spät entdeckt wird. Ein von Alibaba entwickeltes KI-Tool soll das ändern: Es erkennt Tumore in einfachen Routine-CTs, noch bevor Patienten Symptome haben.

    An einem chinesischen Krankenhaus hat das System bereits Dutzende Fälle gefunden, die Ärzte übersehen hatten. Doch Experten warnen vor den Schattenseiten der Technologie.

    Der Artikel Alibabas PANDA-System findet Tumore, die Ärzte übersehen erschien zuerst auf The Decoder.

  • Qwen-Image-2512 Update bringt deutlich mehr Realismus und weniger KI-Look

    Qwen Image bilder

    Qwen Image

    Kurzfassung

    Quellen

    Alibaba hat mit Qwen-Image-2512 ein neues quelloffenes Bildmodell veröffentlicht, das in Sachen Realismus zu den Marktführern von Google und OpenAI aufschließt. Das Modell verbessert insbesondere die Darstellung von Texturen, menschlichen Merkmalen und Schriftzügen innerhalb generierter Grafiken deutlich. Durch die Open-Source-Lizenz und Optimierungen für lokale Hardware können Nutzer die Technologie unabhängig von teuren Cloud-Abonnements einsetzen. Die Integration in Tools wie ComfyUI ermöglicht Profis eine schnelle Einbindung in bestehende kreative Arbeitsprozesse.

    Hugging Face – Qwen/Qwen-Image-2512 Repository

    X / Alibaba Qwen – A New Year gift from Qwen — Qwen-Image-2512 is here

    Reddit – Alibaba drops Qwen-Image-2512: New strongest open-source image model

    Unsloth Documentation – How to Run Qwen-Image-2512 Locally in ComfyUI

    Alibaba veröffentlicht mit Qwen-Image-2512 ein neues quelloffenes Bildmodell, das durch extremen Realismus besticht. Für Anwender bedeutet dies den Zugriff auf modernste Technik ohne die üblichen Beschränkungen proprietärer Systeme der großen US-Konzerne. Realismus durch verbesserte Berechnung Das neue Modell Qwen-Image-2512-Update setzt den Fokus auf eine präzise Darstellung von Details und Texturen. Besonders bei der Wiedergabe menschlicher Merkmale und komplexer Lichtverhältnisse zeigt die KI deutliche Fortschritte gegenüber den Vorgängern. Die Entwickler nutzen hierfür eine optimierte Rendering-Technik, also das Verfahren zur grafischen Bildberechnung. Die Darstellung von feinen Strukturen wie Tierfell, Wasserflächen oder weiten Landschaften wirkt natürlicher und weniger künstlich. Der berüchtigte Plastik-Look früherer Generationen gehört damit weitgehend der Vergangenheit an. Ein wesentlicher Aspekt liegt zudem in der Interpretation von Texteingaben. Das System versteht komplexe Beschreibungen präziser und setzt diese in grafisch anspruchsvolle Ergebnisse um. Dies reduziert die Notwendigkeit für langwieriges Ausprobieren verschiedener Befehle. Besonders das Rendering von Schrift innerhalb der Bilder erreicht ein Niveau, das bisherige Open-Source-Lösungen übertrifft. + + Quelle: Alibaba Angriff auf die Marktführer Mit der Veröffentlichung positioniert sich Alibaba direkt gegen Schwergewichte wie Google und dessen Modelle Gemini 3 Pro oder Imagen 4. In ersten Vergleichen erreicht die Open-Source-Variante, deren Quellcode für jeden einsehbar ist, ähnliche Qualitätsstufen wie die geschlossenen Bezahlsysteme. Damit verschieben sich die Machtverhältnisse im Bereich der generativen Bild-KI weiter in Richtung quelloffener Software. Der Konkurrenzkampf führt dazu, dass hochwertige Bildgenerierung zunehmend demokratisiert wird. Während US-Unternehmen oft strenge Filter und hohe Kostenmodelle ansetzen, bietet die chinesische Entwicklung eine leistungsstarke Alternative für die weltweite Gemeinschaft. Die Unabhängigkeit von Cloud-Anbietern spielt dabei für viele Nutzer eine entscheidende Rolle bei der Wahl ihrer Werkzeuge. + Quelle: Alibaba Offene Verfügbarkeit für Entwickler Die technische Basis erlaubt eine flexible Nutzung auf verschiedenen Plattformen. Entwickler können das Modell direkt über Hugging Face beziehen oder lokale Installationen mittels ComfyUI realisieren. Dies fördert die schnelle Integration in bestehende Arbeitsabläufe von Grafikern und Softwareentwicklern. Besondere Erwähnung verdient die Zusammenarbeit mit Projekten wie Unsloth. Diese optimieren den Speicherbedarf, wodurch der Betrieb auch auf weniger leistungsstarker Hardware möglich bleibt. Durch die effiziente Architektur sinken die Hürden für den Einstieg massiv. Selbst kleinere Agenturen können nun eigene Anwendungen auf Basis dieses Modells entwickeln, ohne hohe Rechenkosten zu fürchten. Die Veröffentlichung zum Jahresende unterstreicht Alibabas Ambition, den Takt in der Entwicklung global vorzugeben. Anzeige

  • Alibabas neues offenes Qwen-Bildmodell soll deutlich natürlichere Bilder generieren

    Alibaba hat Qwen-Image-2512 veröffentlicht, ein Update seines Text-zu-Bild-Modells. Das Modell erzeugt laut Alibaba realistischere Bilder von Menschen, mit mehr Gesichtsdetails und weniger künstlichem Aussehen. Zusätzlich verbessert sich die Darstellung von Text in Bildern, etwa bei Infografiken oder Präsentationen. Auch Landschaften, Tierfell und andere natürliche Elemente werden feiner dargestellt. In mehr als 10 000 Blindtests auf […]

    Der Artikel Alibabas neues offenes Qwen-Bildmodell soll deutlich natürlichere Bilder generieren erschien zuerst auf The Decoder.

  • Stimmen-Klonen aus drei Sekunden Audio: Qwen veröffentlicht neue TTS-Modelle

    Das Qwen-Team von Alibaba Cloud hat zwei neue KI-Modelle veröffentlicht, die Stimmen per Textbefehl entwerfen oder klonen.

    Der Artikel Stimmen-Klonen aus drei Sekunden Audio: Qwen veröffentlicht neue TTS-Modelle erschien zuerst auf The Decoder.

  • Qwen-Image-Layered: Alibabas neue Bild-KI verändert die Grafikbearbeitung grundlegend

    Qwen mit mehreren Ebenen

    Alibaba Qwen

    Kurzfassung

    Quellen

    Alibaba veröffentlicht mit Qwen-Image-Layered ein neues KI-Modell, das Bilder nativ in verschiedenen Ebenen generiert. Diese Technologie erlaubt die gezielte Bearbeitung einzelner Objekte, ohne das restliche Bild zu beeinträchtigen. Das Modell steht der Fachwelt als Open-Source-Variante zur Verfügung und lässt sich in professionelle Grafik-Workflows integrieren.

    Hugging Face: Qwen-Image-Layered Forschungspapier [Leerzeile] Hugging Face: Qwen-Image-Layered Modell-Karte [Leerzeile] GitHub: Qwen-Image-Layered Code-Repository [Leerzeile] YouTube: Offizielle Qwen-Image-Layered Struktur-Demo [Leerzeile] Reddit: Community-Diskussion zur nativen Editierbarkeit

    Alibaba veröffentlicht Qwen-Image-Layered, ein neues KI-Modell zur Bildgenerierung mit nativer Ebenen-Struktur. Diese Technologie ermöglicht die präzise Manipulation einzelner Bildelemente ohne Qualitätsverlust, was professionelle Design-Prozesse erheblich vereinfacht und beschleunigt. Der Abschied vom statischen Bild Bisherige KI-Modelle wie Stable Diffusion oder Midjourney erzeugen Bilder meist als flache Pixel-Dateien. Wer nachträglich Details ändern will, muss auf komplexe Maskierungen oder Inpainting-Verfahren – also das nachträgliche Übermalen von Bildbereichen – zurückgreifen, was oft zu ungewollten Fehlern im Bild führt. Alibaba geht mit Qwen-Image-Layered einen anderen Weg. Das Modell zerlegt die Szene bereits während der Erstellung in logische Ebenen wie Hintergrund, Vordergrund und einzelne Objekte.

    Präzision durch native Ebenen-Dekomposition Die sogenannte native Ebenen-Dekomposition erlaubt es, jedes Element physikalisch isoliert zu betrachten. Nutzer können via Texteingabe gezielt Farben ändern, Objekte entfernen oder deren Position im Raum verschieben, ohne den Rest des Bildes zu beeinflussen. Dabei nutzt das Modell ein diffusionsbasiertes Verfahren, das speziell auf die Trennung von Strukturen trainiert wurde. Dies verhindert das bekannte Ausbluten von Farben oder Verformungen bei der Bearbeitung angrenzender Bereiche. Anzeige Werkzeug für Profis und Open-Source-Community Besonders für Grafiker bietet dieser Ansatz enorme Vorteile bei der Integration in bestehende Arbeitsabläufe. Statt manuell Freisteller zu erstellen, liefert die KI fertige Bausteine, die sich wie in professioneller Software handhaben lassen. Das Modell steht ab sofort als quelloffene Variante zur Verfügung. Entwickler finden den Code auf GitHub, während eine Demo auf Hugging Face das Ausprobieren der Funktionen ermöglicht.

  • Alibaba kündigt Konkurrenz für Metas KI-Brille und ChatGPT an

    Chromatisches Glitch-Muster aus überlappenden Hexagrammen, das durch RGB-Farbverschiebungen einen lebendigen Retro-Futurismus vermittelt.

    Alibaba bringt mit den Quark-AI-Glasses erstmals eigene smarte Brillen auf den Markt.

    Der Artikel Alibaba kündigt Konkurrenz für Metas KI-Brille und ChatGPT an erschien zuerst auf THE-DECODER.de.

  • KI-Videos mit Ton: Alibaba fordert Google heraus

    Ein Mensch erstellt KI-Videos

    KI-Videos mit Ton: Alibaba fordert Google heraus Alibabas neue Video-KI Wan2.5 kann jetzt auch Ton und ist viel günstiger als Veo 3. Beginnt jetzt ein neuer Preiskampf auf dem KI-Markt? Kurzfassung | Andreas Becker, 26.09.25
    gpt-image-1 | All-AI.de EINLEITUNG Der chinesische Technologiekonzern Alibaba fordert Google auf dem Markt für KI-generierte Videos heraus. Mit der Vorstellung von Wan2.5-Preview positioniert sich das Unternehmen als direkter Konkurrent zu Googles führendem Modell Veo 3. Die entscheidende Neuerung ist die Fähigkeit, Videos mit passendem, synchronisiertem Ton zu erzeugen. Gleichzeitig markiert die Veröffentlichung einen Strategiewechsel: Statt auf Open Source setzt Alibaba nun auf ein kommerzielles, geschlossenes System. NEWS Mehr als nur bewegte Bilder Die zentrale Innovation von Wan2.5-Preview ist die nahtlose Verbindung von Bild und Ton. Das System generiert bis zu zehn Sekunden lange Videos in 1080p-Auflösung und unterlegt diese mit Stimmen, Geräuscheffekten oder Musik. Die multimodale Architektur verarbeitet dabei nicht nur Textbefehle, sondern auch hochgeladene Bilder oder sogar reine Audiodateien als Ausgangspunkt für die Videoproduktion. Alibaba verspricht eine „kinoreife Ästhetik“ und stellt Werkzeuge zur Verfügung, die professionelle Kontrolle ermöglichen sollen. Bei genauerem Hinsehen offenbart das System jedoch noch Schwächen. In ersten Demonstrationen sind visuelle und auditive Elemente nicht immer perfekt synchronisiert, etwa wenn die Bewegung eines Schlagzeugers nicht exakt zum Rhythmus der Musik passt. Auch die konsistente Darstellung von Gesichtern über mehrere Szenen hinweg bleibt eine Herausforderung. Solche Kinderkrankheiten sind für KI-Modelle in einem derart frühen Entwicklungsstadium jedoch nicht ungewöhnlich. Quelle: Alibaba – Viedeo mit Wan 2.5 Beispielen Preiskampf gegen den Marktführer Mit der Audio-Integration zieht Wan2.5 technologisch mit Google Veo 3 gleich, das diese Funktion bereits im Mai 2024 einführte. Im direkten Vergleich zeigt sich ein klares Stärken- und Schwächenprofil. Während Google mit einer höheren Auflösung von bis zu 4K punktet, bietet Alibaba mit zehn Sekunden eine etwas längere Laufzeit und flexiblere Eingabeformate. Die chinesische KI unterstützt zudem mehrere Sprachen, was ihr einen Vorteil auf dem internationalen Markt verschaffen könnte. Den deutlichsten Angriff startet Alibaba jedoch über den Preis. Die Kosten für die API-Nutzung liegen mit 5 bis 15 US-Cent pro Videosekunde erheblich unter den 15 bis 40 Cent, die Google für Veo 3 verlangt. Diese aggressive Preisgestaltung signalisiert die Absicht, schnell Entwickler und Unternehmen als Kunden zu gewinnen und Googles Vormachtstellung anzugreifen. Abschied von Open Source Die Entscheidung, Wan2.5 als geschlossenes System anzubieten, ist ein bemerkenswerter Kurswechsel. Das Vorgängermodell Wan2.2 war noch als Open-Source-Projekt frei verfügbar und erfreute sich in der Entwicklergemeinde großer Beliebtheit. Es lief sogar auf handelsüblicher Hardware und förderte so die unabhängige Forschung und Anwendung. Der neue kommerzielle Ansatz spiegelt den wachsenden Druck im KI-Sektor wider, die immensen Entwicklungskosten zu refinanzieren. Für die Open-Source-Community ist dieser Schritt eine Enttäuschung. Der Wettbewerb um die Vorherrschaft bei der KI-Videogenerierung hat eine neue Stufe erreicht, von der am Ende vor allem die Anwender profitieren könnten. MITMACHEN Hat Dir der Beitrag gefallen oder geholfen? Dann hilf uns mit einem Klick weiter – dauert nur Sekunden. Teile diesen Beitrag Folge uns auf Social Media Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt KI-Tools sind teuer – unser Wissen bleibt kostenlos. Spende einmalig via PayPal oder werde YouTube-Mitglied (ab 0,99 €). Dafür liefern wir täglich News, ehrliche Tests und praxisnahe Anleitungen. Danke dir! PayPal – Spende Youtube – ABO KURZFASSUNG Alibaba hat Ende September 2024 Wan2.5-Preview veröffentlicht, ein Video-KI-Modell mit nativer Audio-Erzeugung, das direkt mit Google Veo 3 konkurriert. Das System nutzt eine multimodale Architektur und kann 10-sekündige 1080p-Videos mit synchronisiertem Audio, Stimmen und Hintergrundmusik generieren. Im Gegensatz zu früheren Open-Source-Versionen ist Wan2.5 nur über kostenpflichtige APIs verfügbar, mit deutlich niedrigeren Preisen als Google Veo 3. Die Qualität zeigt noch Schwächen bei der Audio-Video-Synchronisation und Gesichtskonsistenz, positioniert sich aber als kostengünstige Alternative mit multilingualer Unterstützung. QUELLEN The Decoder – Alibaba’s Wan2.5-Preview X (Twitter) – Alibaba Wan Official Imagine.art – Veo 3 vs AI Video Generators GitHub – Wan2.2 Repository Synthesia – Best AI Video Generators 2025

  • Alibaba veröffentlicht leistungsfähiges Open Source Sprach-Vision-Modell Qwen3-VL

    Alibaba hat mit Qwen3-VL ein neues Open-Source-Modell veröffentlicht, das Sprache und Bild kombiniert.

    Der Artikel Alibaba veröffentlicht leistungsfähiges Open Source Sprach-Vision-Modell Qwen3-VL erschien zuerst auf THE-DECODER.de.

  • Wan2.5: Alibabas neues Videomodell zieht mit Googles Veo 3 gleich

    Chromatisches Glitch-Muster aus überlappenden Hexagrammen, das durch RGB-Farbverschiebungen einen lebendigen Retro-Futurismus vermittelt.

    Alibaba hat Wan2.5-Preview veröffentlicht, ein neues Videomodell mit integrierter Audio-Erzeugung. Das System kann Videos mit synchronisiertem Ton generieren und verschiedene Medientypen kombinieren.

    Der Artikel Wan2.5: Alibabas neues Videomodell zieht mit Googles Veo 3 gleich erschien zuerst auf THE-DECODER.de.

  • Qwen3-Max ist Alibabas neues Spitzenmodell

    Alibaba hat mit Qwen3-Max sein bisher größtes und leistungsstärkstes KI-Modell veröffentlicht. Die Verbesserungen machen das Modell für praktische Anwendungen in der Softwareentwicklung und Automatisierung interessanter.

    Der Artikel Qwen3-Max ist Alibabas neues Spitzenmodell erschien zuerst auf THE-DECODER.de.