Schlagwort: Image

  • Tencents Hunyuan 3.0 ist die neue Nummer 1

    Hunyuan Image 3.0 Schrift

    Tencents Hunyuan 3.0 ist die neue Nummer 1 Das frei zugängliche Modell setzt neue Maßstäbe in der KI-Bilderstellung und verweist die teure Konkurrenz auf die Plätze. Kurzfassung | Andreas Becker, 08.10.25
    Tencent | All-AI.de Ein Paukenschlag für die Open-Source-Bewegung erschüttert die KI-Welt. Das chinesische Unternehmen Tencent hat mit seinem Bildgenerator Hunyuan Image 3.0 die Führung übernommen. Das frei verfügbare Modell verdrängte Googles Konkurrenzprodukt von Platz eins der wichtigen LMArena-Bestenliste. Dieser Sieg markiert einen potenziellen Wendepunkt im Wettbewerb mit den geschlossenen Systemen der Tech-Giganten. Googles überraschende Niederlage Der Erfolg von Hunyuan Image 3.0 ist ein historisches Ereignis. Erstmals seit langer Zeit führt wieder ein Open-Source-Modell das unabhängige Ranking der LMArena an. Diese Plattform, betrieben von Forschern der University of California, Berkeley, ermittelt die besten Modelle durch anonyme Abstimmungen von Nutzern. Tencents KI setzte sich dabei gegen Googles hochgelobtes Modell „Nano Banana“ durch. Die Rangliste gilt in der Szene als fairer Leistungsvergleich. Nutzer bewerten dabei die Ergebnisse zweier anonymer KIs, ohne zu wissen, welches Modell welches Bild erzeugt hat. Der erste Platz für Hunyuan Image 3.0 belegt eindrucksvoll die Konkurrenzfähigkeit quelloffener Alternativen. + Quelle: LLMArena Die Technik hinter dem Erfolg Die Überlegenheit des Modells ist kein Zufall. Tencent baute mit 80 Milliarden Parametern das größte bisher veröffentlichte Open-Source-Modell zur Bilderzeugung. Eine innovative Architektur, bekannt als Mixture-of-Experts (MoE), sorgt dabei für extreme Effizienz. Das System aktiviert pro Anfrage nur einen Bruchteil seiner Parameter, ähnlich wie ein Gehirn nur die relevanten Neuronen für eine Aufgabe nutzt. Diese technische Raffinesse unterscheidet Hunyuan Image 3.0 von vielen Konkurrenten. Das Modell basiert auf einer einheitlichen multimodalen Architektur. Es verarbeitet Text und Bildinformationen in einem integrierten Prozess und erzeugt dadurch besonders kontextbezogene und hochwertige visuelle Ergebnisse. + Quelle: Tencent Intelligenz und Zugänglichkeit Eine besondere Stärke der KI liegt in ihrer intelligenten Interpretation von Befehlen. Hunyuan Image 3.0 kann vage Anweisungen selbstständig mit passenden Details anreichern. Diese Fähigkeit zur automatischen Verbesserung von Prompts basiert auf einer gewaltigen Trainingsdatenbank. Tencent nutzte dafür fünf Milliarden Bild-Text-Paare und sechs Billionen Text-Token. Trotz der enormen Leistung stellt Tencent das Modell der Community vollständig zur Verfügung. Der Code und die trainierten Modellgewichte sind frei über Plattformen wie GitHub und Hugging Face zugänglich. Damit demokratisiert das Unternehmen den Zugang zu Spitzentechnologie und fordert die etablierten Anbieter heraus. Quelle: Tencent MITMACHEN Hat Dir der Beitrag gefallen oder geholfen? Dann hilf uns mit einem Klick weiter – dauert nur Sekunden. Teile diesen Beitrag Folge uns auf Social Media Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt KI-Tools sind teuer – unser Wissen bleibt kostenlos. Spende einmalig via PayPal oder werde YouTube-Mitglied (ab 0,99 €). Dafür liefern wir täglich News, ehrliche Tests und praxisnahe Anleitungen. Danke dir! PayPal – Spende Youtube – ABO KURZFASSUNG
    Tencents Open-Source-Modell Hunyuan Image 3.0 hat Platz 1 der LMArena-Bestenliste für Text-zu-Bild-Generierung erreicht.
    Es übertrifft damit das bisher führende Modell „Nano Banana“ von Google, was einen wichtigen Sieg für die Open-Source-Community darstellt.
    Die Leistung basiert auf seiner enormen Größe von 80 Milliarden Parametern und einer effizienten Mixture-of-Experts-Architektur.
    Das Modell ist mitsamt Code und Gewichten frei verfügbar, was den Zugang zu KI-Spitzentechnologie demokratisiert.
    QUELLEN
    Tencent Hunyuan GitHub
    Tech360.tv
    OpenSourceForU
    South China Morning Post

  • Google aktualisiert Gemini 2.5 Flash Image aka Nano Banana mit neuen Funktionen

    Das Bildmodell Gemini 2.5 Flash Image ist jetzt allgemein verfügbar. Es erlaubt unter anderem gezielte Bildbearbeitung per Spracheingabe, konsistente Charakterdarstellungen und die Auswahl aus zehn Seitenverhältnissen.

    Der Artikel Google aktualisiert Gemini 2.5 Flash Image aka Nano Banana mit neuen Funktionen erschien zuerst auf THE-DECODER.de.

  • Nano Banana Vollversion erschienen mit 11 Bildformaten

    Eine Banana in vielen Formaten

    Nano Banana Vollversion erschienen mit 11 Bildformaten Beim Gemini Flash 2.5 Image Model sind jetzt 21:9, 16:9, 5:4, 4:3, 3:2, 1:1 sowie deren Umkehrungen auswählbar. Kurzfassung | Andreas Becker, 03.10.25
    Nano Banana | All-AI.de EINLEITUNG Wer mit KI-Bildgeneratoren arbeitet, kannte das Problem: Man wünschte sich ein Bild im Breitbildformat und erhielt trotzdem nur ein Quadrat. Google behebt dieses Ärgernis nun mit einem wichtigen Update. Das unter dem Spitznamen „Nano Banana“ bekannt gewordene Modell Gemini 2.5 Flash Image ist jetzt für den breiten Einsatz verfügbar und bringt elf verschiedene Seitenverhältnisse mit. Damit reagiert das Unternehmen direkt auf eine der meistgenannten Forderungen seiner Nutzer und macht einen entscheidenden Schritt in Richtung professioneller Anwendung. NEWS Vom Quadrat zur Kinoleinwand Die wohl wichtigste Neuerung ist die Implementierung von elf verschiedenen Seitenverhältnissen, die Nutzern deutlich mehr kreative Freiheiten geben. Das Spektrum reicht von filmischen Formaten wie 21:9 und 16:9 über klassische Fotoformate bis hin zu Hochkant-Optionen wie 9:16, die für Social-Media-Anwendungen unerlässlich sind. Damit wird ein kritischer Fehler behoben, der zuvor trotz präziser Anweisungen oft nur quadratische Bilder mit 1024×1024 Pixeln lieferte. Diese erweiterte Vielfalt ermöglicht es Entwicklern und Kreativen, Inhalte gezielt für verschiedene Plattformen und Zwecke zu erstellen, ohne umständliche Nachbearbeitung. Ob für eine Präsentation, einen Blogartikel oder eine Instagram-Story – das gewünschte Format lässt sich nun direkt bei der Generierung festlegen. Google stellt das Modell über seine Programmierschnittstellen, das AI Studio und die Unternehmensplattform Vertex AI zur Verfügung. + Quelle: Google – Im Gemini Studio bereits auswählbar Intelligente Bildbearbeitung setzt neue Maßstäbe Neben den neuen Formaten überzeugt Gemini 2.5 Flash Image mit fortschrittlichen Bearbeitungsfunktionen. Das System kann mehrere Bilder nahtlos miteinander verschmelzen und passt dabei Beleuchtung und Texturen intelligent an. Besonders hervorzuheben ist die Fähigkeit, die Konsistenz von Charakteren über mehrere Bilder hinweg beizubehalten – ein Merkmal, das für erzählerische Projekte entscheidend ist. Änderungen lassen sich zudem durch einfache Textbefehle steuern, ohne dass unbeabsichtigte Bildbereiche verändert werden. Erste Unternehmen nutzen diese Fähigkeiten bereits. Die Firma Cartwheel etwa kombiniert das Modell mit einem 3D-Werkzeug, um Künstlern präzise Kontrolle über die Darstellung von Figuren aus jedem Kamerawinkel zu geben. Der Spieleentwickler Volley setzt die KI für die Bildgenerierung in Echtzeit während des Spiels ein und profitiert von der hohen Geschwindigkeit des Modells, das Ergebnisse in unter zehn Sekunden liefert. + Quelle: Google – jetzt als Vollversion Preisdruck und verbleibende Grenzen Im direkten Wettbewerb positioniert sich Google auch preislich attraktiv. Mit rund vier Cent pro Bild ist die Generierung etwa 40 Prozent günstiger als bei OpenAIs Konkurrenzmodell. Eine kostenlose Variante im Google AI Studio erlaubt bis zu 500 Anfragen pro Tag für Testzwecke. Trotz der Fortschritte bleiben jedoch technische Hürden bestehen. Die maximale Auflösung von 1024 Pixeln limitiert die Nutzung für hochauflösende Druckanwendungen. Zudem hat das Modell noch Schwierigkeiten mit der korrekten Darstellung kleinerer Textdetails. Alle erstellten Bilder werden mit einem digitalen Wasserzeichen versehen, um sie klar als KI-generiert zu kennzeichnen. MITMACHEN Hat Dir der Beitrag gefallen oder geholfen? Dann hilf uns mit einem Klick weiter – dauert nur Sekunden. Teile diesen Beitrag Folge uns auf Social Media Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt KI-Tools sind teuer – unser Wissen bleibt kostenlos. Spende einmalig via PayPal oder werde YouTube-Mitglied (ab 0,99 €). Dafür liefern wir täglich News, ehrliche Tests und praxisnahe Anleitungen. Danke dir! PayPal – Spende Youtube – ABO KURZFASSUNG Google hat Gemini 2.5 Flash Image für den Produktionseinsatz freigegeben und unterstützt nun zehn verschiedene Seitenverhältnisse für flexible Bildgenerierung. Das System ermöglicht fortschrittliche Bildbearbeitung mit Charakterkonsistenz, Multi-Bild-Fusion und natürlichsprachlichen Befehlen bei Latenzzeiten unter zehn Sekunden. Unternehmen wie Cartwheel und Volley nutzen bereits erfolgreich die neuen Funktionen für kreative Anwendungen und Echtzeit-Spielerlebnisse. Mit einem Preis von 0,039 US-Dollar pro Bild positioniert sich Google kostengünstiger als Konkurrenten, wobei 500 kostenlose tägliche Anfragen für Entwickler verfügbar sind. QUELLEN Testing Catalog Google Developers Blog The Decoder BundB Blog Seeking Alpha