Schlagwort: Image

  • ChatGPT Images 2.0 Tutorial: Prompts und Tipps 2026

    bilder mit chatgpt images 2

    GPT-Images-2.0

    Inhaltsverzeichnis

    Ressourcen

    01. Formate und Auflösungen
    02. Fotorealismus und gesperrte Bilder
    03. Thinking Modus + Live Daten
    04. Comics in einem Rutsch
    05. Unterschiedliche Sprachen
    06. Marketing Ideen
    07. So gehts weiter
    11. FAQ – Fragen & Anworten

    ChatGPT Webseite
    ChatGPT Hilfe-Center

    Heute lernst du, wie du ChatGPT Image 2.0 perfekt nutzt und welche neuen Möglichkeiten dir das Modell bietet. Außerdem erfährst du einen simplen Trick, wie du Menschen generierst, ohne dass ChatGPT den Vorgang blockiert. Du nutzt alle Prompts wie immer direkt mit »Copy & Paste« für deine eigenen Projekte. In den nächsten Tagen folgen zudem mindestens zwei weitere Prompting-Artikel. Bookmarke diese Seite also unbedingt! In der Gallerie gibt es einen kleinen Vorgeschmack:

    Kategorie: Prompting & Bilder
    Bilder mit ChatGPT-Images-2.0 erstellen

    Einsteiger
    Level

    Dauer
    5 – 30 Min.

    Kosten
    Kostenlos*

    Software
    Browser / App

    Das bekommst du in diesem Tutorial:

    Exklusive Copy/Paste Prompts
    Tipps zu ChatGPT-Images-2.0

    ChatGPT öffnen & starten

    Hinweis: Du benötigst einen (kostenlosen) ChatGPT Account, um mitzumachen.

    01.
    Formate und Auflösungen
    Bisher warst du bei ChatGPT auf die Standardformate 1:1, 3:2 und 2:3 limitiert. Jetzt erstellst du nahtlos alles zwischen 3:1 und 1:3. Damit hast du sogar mehr Formate zur Auswahl als bei Nano Banana. Gerade 16:9 und 9:16 sind heute extrem wichtig. Du musst deine Bilder nachträglich nicht mehr mühsam zuschneiden. Selbst extreme Panorama-Fotos wirken mit dem 3:1 Format richtig stark. Platziere dein gewünschtes Format dafür einfach irgendwo im Prompt. Ich setze es meistens ganz an das Ende. + +

    Berlin Panorama

    Copy

    create a photorealistic panorama shot as if taken on iphone of Berlin at the Brandenburg Gate. 3:1

    Prompt vollständig anzeigen

    Du wählst auch die Auflösung und die Qualitätsstufe. Das funktioniert allerdings nicht direkt in der Weboberfläche von ChatGPT. Dort erhältst du je nach Abo meist nur die Stufe „Medium“ und eine Auflösung von 1k oder 2k automatisch zugeordnet. Fragst du das Modell hingegen über die API oder Dienste wie Higgsfield an, bestimmst du Qualität (Low, Medium, High) und Auflösung (1k, 2k, 4k) frei. Beachte dabei die stark variierenden Kosten. Bei Higgsfield kostet ein Standard-Bild in 1k genau 2 Coins. Ein Bild in der Stufe High mit 4k-Auflösung kostet dich schon 12 Coins. Du erhältst also 6 Standard-Bilder für den Preis von einem Hochglanzbild. +
    02.
    Fotorealismus und gesperrte Bilder
    Fotorealistische Bilder haben sich extrem verbessert. Sie sehen nicht nur echter aus, du steuerst die Ergebnisse auch viel präziser. ChatGPT Image 2.0 versteht Fachbegriffe aus der Fotografie exzellent. Bist du Fotograf, liefert dir dieses Modell exakt dein Wunschergebnis. Nutze „photorealistic“ immer als Grundbegriff. Diesen verfeinerst du dann nach deinen Vorstellungen. Der für mich wichtigste Style ist der typische iPhone-Style. Das Bild soll wirken, als hättest du gerade beiläufig einen Schnappschuss mit dem Smartphone gemacht. +

    iPhone Style

    Copy

    A photorealistic iPhone photo of two super heroes sitting at an outdoor cafe in late afternoon, taken casually by someone at the table. Half-finished drinks, uneven sunlight, relaxed posture, slightly imperfect framing, and the natural realism of a real everyday phone snapshot.

    Prompt vollständig anzeigen

    Pro-Tipp: Abbrüche gezielt umgehen
    Ab und zu bricht ChatGPT Image 2.0 bei der Generierung von Personen ab. Viele deutsche Nutzer halten das für eine feste Vorgabe von OpenAI. Greifst du jedoch über die amerikanische API bei Anbietern wie Higgsfield zu, funktionieren diese Prompts auf einmal fehlerfrei.

    Es geht aber noch einfacher: Verbinde dich kurz per VPN mit einem Server in den USA. Schlägt dein erster Versuch fehl, schaltest du das VPN ein und schreibst in den Chat: „try again“. Der identische Prompt funktioniert nun auf magische Weise.

    Besonders bei Gemini und Nano Banana kommst du ohne diesen Trick kaum noch ans Ziel. In Deutschland und Europa gelten einfach härtere Richtlinien. Diese haben aber meiner Meinung nach keinen Effekt, wenn die Rest der Welt es anders macht.

    Hier siehst du einen Prompt, bei dem ChatGPT abbricht. Jetzt aktivierst du das VPN mit dem Zielland USA und schreibst einfach „try again“. Und schon bekommst du dein Ergebnis! + + Hier folgt eine kurze Empfehlung für unsere Partner NordVPN und Higgsfield. NordVPN bietet dir bis zu 75 % Rabatt und liefert viele schnelle Standorte in den USA. Gesperrte KI-Funktionen oder Features, die erst später nach Europa kommen, sind damit absolut kein Problem mehr. Zusätzlich streamst du mit einem Bezahl-VPN auch Filme und Serien, die in Deutschland nicht verfügbar sind. ANZEIGE Bei Higgsfield greifst du automatisch über eine API auf ChatGPT Image 2.0 zu. Du hast dort keine Beschränkungen. Das lohnt sich vor allem, wenn du nicht ständig zwischen Anbietern wechseln willst und immer die besten Modelle suchst. Aktuell sind das ChatGPT Image 2.0 und Seedance 2.0 für Videogenerierung. ANZEIGE Willst du kein Geld ausgeben, nutzt du bei wenig Volumen einfach einen kostenlosen VPN-Anbieter. Du musst für diesen Trick also nicht zwingend bezahlen. Retro-Look Hier siehst du, wie das Prompting mit Fachbegriffen aus der Fotografie funktioniert. Einfache, aber präzise Angaben wie „shot on 35mm film“ liefern hervorragende Ergebnisse. Mit dieser Angabe erhältst du garantiert ein stimmiges Retro-Bild. +

    Retro Fotographie

    Copy

    A photorealistic candid travel scene of a young womand standing at a coastal roadside turnout on an overcast morning, shot on 35mm film. Natural imperfect framing, visible grain, ambient light, muted colors, wind in clothing and hair, cinematic realism, and the feeling of a lived-in documentary photograph.

    Prompt vollständig anzeigen

    Hochglanz-Magazin Das Problem bei Fotografie-Fachbegriffen: Die meisten Nutzer kennen sie nicht. Frage ChatGPT daher im Vorfeld, was der aktuelle Stand der Technik für ein bestimmtes Motiv ist. Der erste Prompt erzeugt also nicht direkt das Bild, sondern schreibt deinen Bild-Prompt. Du fragst das System, welche Kamera und welche Einstellungen aktuell für Hochglanzfotos in der Vogue das beste Ergebnis liefern. +

    Hochglanz Fotographie

    Copy

    Raw photo of a beautiful female fashion model, wearing a sleek silk dress, editorial fashion photography, Vogue magazine style. Shot on Hasselblad H6D-100c, 85mm lens, f/2.8, ISO 100, 1/200s. Professional studio lighting, beauty dish, catchlights in the eyes, sharp focus, ultra-detailed, hyper-realistic, glossy magazine aesthetic, 8k resolution –ar 4:5

    Prompt vollständig anzeigen

    03.
    Thinking Mode für Live-Daten
    Das nächste große Thema ist der Thinking Mode. Du brauchst dafür das Plus-Abo und musst dann oben den Thinking-Modus auswählen. ChatGPT denkt dann über den Prompt nach und verknüpft ihn mit seinem Wissen (Stand Dezember 2025) sowie einer aktuellen Live-Suche. Zusammen mit der Fähigkeit, Text zu 100% akkurat abzubilden, hast du jetzt völlig neue Möglichkeiten. Comics, Zeitungen, Infografiken, Marketing, alles kein Problem mehr. Im ersten Beispielen sehen wir eine Zeitung mit aktuellen News (22. April 2026) von heute: +

    Live Zeitung

    Copy

    Create a newspaper for me in the style of 1920s American newspapers, but with today’s news (April 22, 2026).

    Prompt vollständig anzeigen

    Das zweite Beispiel ist noch interessanter und schwieriger für das Modell. Die Schachspielerin Anna Cramling hat vor einiger Zeit das sogenannte Cow-Opening vorgestellt. Wir geben dem Modell keine konkreten Informationen, sondern wollen das einfach grafisch aufbereitet sehen: +

    Erklär-Grafiken

    Copy

    Ein Bild von Anna Cramlings „Cow Opening” in seiner typischen Stellung, das zeigt, warum die Stellung so heißt. Rechts davon sind die Züge im typischen Schachstil zu sehen, die dafür notwendig sind. Im Hintergrund ist das Konterfei von Anna Cramling in einer sehr dezenten Strichzeichnung zu sehen.

    Prompt vollständig anzeigen

    04.
    Comics in einem Rutsch
    Hier sprechen wir zwei Dinge an. Einerseits fertigst du einzelne Comic-Seiten auf extrem hohem Niveau an, da das Modell perfekten Text schreibt. Andererseits generiert ChatGPT Image 2.0 durch eine neue Funktion bis zu 8 zusammenhängende Bilder auf einmal. Du denkst dir 8 Comic-Seiten aus, schreibst die Handlung und lässt sie direkt passend zusammen generieren. Willst du einen Comic mit 24 Seiten erstellen, gibst du die vorderen Seiten einfach als Stilreferenz mit. So baust du nach und nach in kurzer Zeit ein ganzes Heft auf. Die Charaktere und Objekte bleiben dabei über alle Bilder hinweg identisch. + + + +

    Anime / Manga

    Copy

    Image 1: Make a sample page of a colorized Japanese Soccer manga like „Die Kickers“, but modern. The page should vividly depict our main character scoring the decisive goal in a match. Make the scene dramatic. For the German market with German text.

    Image 2: After the game, both teams thank each other for a fair match. Then it’s time for the award ceremony.
    Image 3: That night, the team celebrates wildly and throws a party. only 1 big Panel.
    Image 4:The next morning, everyone arrives at the training ground feeling very tired and worn out and does some light exercises to cool down.

    Prompt vollständig anzeigen

    05.
    Unterschiedliche Sprachen
    Die bessere Unterstützung von Sprachen ist eine weitere riesige Neuerung. Bisher lieferten oft nur englische Prompts exzellente Ergebnisse. Lateinische Sprachen wie Deutsch funktionierten ordentlich. Jetzt versteht das Modell aber auch Sprachen wie Japanisch oder Koreanisch fehlerfrei. Damit skalierst du deine Bilder, Comics und Poster problemlos für die ganze Welt. Du passt den Stil exakt an einen bestimmten Markt an, inklusive perfekter Übersetzung. + +

    Sprache ändern

    Copy

    Create two new versions of this for a different target market:

    1: Japanese version
    – Text in Japanese
    – Players with Japanese appearances

    2: Korean version
    – Text in Korean
    – Players with Korean appearances

    Prompt vollständig anzeigen

    Das Modell ändert deinen Text nicht nur in andere Sprachen. Es passt auch Details wie Spielernamen auf dem Rücken direkt für den entsprechenden Sprachraum an. Du änderst die Spieler sogar optisch. Sind in Deutschland blondes Haar und der Name Becker normal, passt du das mit nur einem Wort im Prompt an. Genauso wandelst du deinen deutschen Comic fehlerfrei in eine asiatische Version um. Nimm deinen deutschen Comic und ändere ihn durch Prompting in die japanische oder amerikanische Welt. Du bereitest deine Story so dreimal unterschiedlich für drei verschiedene Märkte perfekt auf.
    06.
    Marketing Ideen
    Zum Abschluss betrachten wir die wahrscheinlich größte Verwendungsmöglichkeit: Marketing! In der Qualitätsstufe High und in 4k ersetzt du damit zu 99 %, was aktuell ganze Marketingteams leisten. Das schließt komplette Fotoshootings incl. Nachbearbeitung mit ein. Außergewöhnliches Marketing Im Gegensatz zu Standard-Sachen können wir jetzt unserer Fantasie freien Lauf lassen und Dinge darstellen, die noch vor Kurzem überhaupt nicht oder nur mit sehr viel Aufwand möglich waren. +

    Gummistiefel Marketing

    Copy

    A high-fashion surrealist advertising poster for rubber boots. The scene is set in a minimalist, monochrome light blue studio with a semi-reflective floor.
    The central focus is an oversized, giant white rubber boots clog positioned on its heel at a diagonal angle, serving as a backrest. A fashion model (1.80m, Swedish) with long blond hair, dressed in a clean, all-white coordinated sweatshirt and wide-leg trousers, leans her entire back against the giant one rubber boot in a relaxed, leaning posture. She is facing right in profile, looking ahead with a serene expression, and wearing standard-sized white rubber boots.
    In the background, the word „RUBBER“ is written in massive, bold, white condensed sans-serif typography, partially occluded by the giant rubber boots and the model to create a sense of depth. At the top right, „Designed by all-ai.de“
    At the bottom center, a white sans-serif tagline reads: „Made for comfort, worn for confidence. Because life feels better when you feel safe.“ The lighting is soft, cool, and even, casting gentle shadows and a soft reflection of the subjects on the glossy blue floor. The overall aesthetic is clean, modern, and high-concept.

    Make the aspect ratio 3:4

    Prompt vollständig anzeigen

    Hochglanz-Magazin Die Magazine sehen mit kostenlosen Models und perfekter Typografie unglaublich professionell aus. Wenn im nächsten Monat die Person und der Text wechseln, haben wir das in einer Minute geändert. +

    Hochglanz Cover

    Copy

    A luxury high-fashion magazine cover. Magazine name at the very top in massive elegant serif font reads „ALL-AI“ — the letters are large, slightly transparent/ghost-style overlapping the model’s head just like ELLE magazine, in soft platinum silver color blending into the background.
    Character: A young beautiful white woman, early 20s, soft feminine features, big blue eyes, naturally full lips, flawless porcelain skin, subtle makeup — rosy cheeks, nude lips, defined brows. Her hair is platinum blonde, long and wavy, loosely flowing over one shoulder. She looks directly into the camera with a soft yet powerful gaze. Slight tilt of the head, naturally elegant posture.
    Outfit: She is wearing a dramatic deep burgundy wine-red ballgown — structured corset top with off-shoulder neckline, voluminous layered satin skirt billowing around her dramatically. Behind her shoulders, large sculptural fabric rises like rose petals — same architectural drama as reference. She leans slightly forward, both hands resting gently on her knees.
    Background: Pure soft warm white/ivory background — completely clean, minimal, high-end studio editorial. Soft diffused light, no harsh shadows.
    Typography — placed EXACTLY like ELLE magazine reference:
    Top: „ALL-AI“ massive serif, platinum/silver, overlapping model’s head slightly
    Left mid: „CHATGPT & POWER“ bold serif, then smaller below „AI IS THE NEW LUXURY“
    Right mid: „ALL-AI & HUMAN“ bold, then „SIX SEVEN“ smaller below
    Bottom right large: „ICONIC & UNSTOPPABLE“ elegant large serif
    All text in deep charcoal/dark navy. Font style: classic high fashion serif — same weight, spacing, and elegance as ELLE. Text naturally integrated into the composition, NOT floating randomly.
    Ultra photorealistic, 8K, real magazine cover quality, perfect typography placement, vertical 9:13 format.

    Prompt vollständig anzeigen

    Getränkedose Wir haben ein Produkt, machen davon mehrere Fotos und generieren daraus dann diverse Marketingmaßnahmen. In unserem Fall hier generieren wir natürlich auch die imaginäre Dose selbst. Und mit dem Prompt können wir jetzt beliebig viele Bilder davon erstellen. Perfekt für jeden Markt auf dieser Welt. + + +

    Getränke Dose Marketing

    Copy

    A professional product photography shot of a cold sparkling water
    can placed upright in golden beach sand. The can is silver and teal,
    covered in realistic water droplets condensation, with a pineapple
    illustration and tropical branding. The can is slightly tilted,
    planted in a small mound of fine golden sand with tiny white pebbles
    and small green tropical leaves/grass scattered around the base.
    Background features a bold split composition – bright sky-blue on
    the left and vivid yellow on the right, with a large blurred real
    pineapple placed behind the can on the right side. A blurred tropical
    palm leaf drapes in from the upper left corner, adding depth and
    framing. Macro-level water condensation droplets visible on the
    can surface. Lighting is bright, vibrant, commercial studio lighting
    with clean shadows. Shallow depth of field – can in sharp focus,
    background softly blurred. Mood: summer, tropical, fresh, refreshing.
    Commercial product photography, ultra-detailed, 8K.

    Take this exact can and use it in the following scenarios:

    Image 2: Four women on the beach drinking from the cans

    Image 3: U.S. market

    Prompt vollständig anzeigen

    07.
    Weiter…
    Das war der erste Einstieg, um die grundsätzlichen Möglichkeiten von ChatGPT Image 2.0 zu zeigen. In den nächsten Tagen folgt hier eine Übersicht mit verschiedenen Style-Prompts. Dazu kommt ein weiteres Tutorial mit richtig guten Ideen, direkt inspiriert von den besten Beispielen auf X und Co. Wir aktualisieren dieses Tutorial fortlaufend mit neuen Ideen. Bookmarke diese Seite unbedingt, um weiterhin die besten KI-Tipps kostenlos abzugreifen! Bis dahin, noch zwei ältere Prompting Guides:

    Passendes Tutorial
    Bilder mit ChatGPT erstellen – 30 Styles mit Prompts
    30 Style Beispiele, Prompts, Tipps und Tricks – das umfassende OpenAI GPT-4o Tutorial auf Deutsch (2025). Mehr Inspiration findest du nirgends!

    Passendes Tutorial
    Bilder mit ChatGPT erstellen – 50 Beispiele mit Prompts

    50 Beispiele, Funktionen, Prompts, Tipps und Tricks – das umfassende OpenAI GPT-4o Tutorial auf Deutsch (2025). Mehr Inspiration findest du nirgends!

    11.
    FAQ – Fragen & Anworten

    Hier versuchen wir, die wichtigsten Fragen im Zusammenhang mit dem Tutorial zu beantworten. Bei weiteren Fragen schicke uns einfach eine E-Mail oder kontaktiere uns über einen Social Media Kanal.
    .faq-accordion {
    max-width: 100%;
    margin: 1rem 0;
    color: #ffffff;
    font-family: sans-serif;
    }

    .faq-accordion details {
    margin-bottom: 0.5rem;
    border: 1px solid #333;
    border-radius: 6px;
    overflow: hidden;
    }

    .faq-accordion summary {
    cursor: pointer;
    font-weight: bold;
    padding: 1rem;
    list-style: none;
    background-color: #000000;
    position: relative;
    color: #ffffff;
    }

    .faq-accordion summary::-webkit-details-marker {
    display: none;
    }

    .faq-accordion summary::after {
    content: „+“;
    position: absolute;
    right: 1rem;
    top: 50%;
    transform: translateY(-50%);
    font-size: 1.2rem;
    transition: transform 0.2s;
    color: #ffffff;
    }

    .faq-accordion details[open] summary::after {
    content: „–“;
    }

    .faq-accordion details > div {
    background-color: #202124;
    padding: 1rem;
    color: #ffffff;
    }

    Frage 1: Was ist ChatGPT Image 2.0? Es ist das neueste Bildgenerierungs-Modell von OpenAI, das deutlich bessere Qualität, perfekte Textdarstellung und neue Formate bietet.
    Frage 2: Ist ChatGPT Image 2.0 kostenlos? Das Modell ist grundsätzlich verfügbar, aber für alle Premium-Funktionen wie den Thinking Mode benötigst du ein kostenpflichtiges ChatGPT Plus-Abo.
    Frage 3: Welche Auflösungen unterstützt das Modell? Du kannst Bilder in 1k, 2k und 4k generieren. Direkt in ChatGPT ist meist „Medium“ voreingestellt, für 4k „High“ benötigst du Zugriff über eine API oder externe Anbieter.
    Frage 4: Welche Bildformate sind möglich? Du bist nicht mehr auf Standardformate beschränkt. Du kannst quasi jedes Seitenverhältnis zwischen 3:1 (Breitbild-Panorama) und 1:3 stufenlos nutzen.
    Frage 5: Kann ChatGPT Image 2.0 fehlerfreien Text schreiben? Ja, wenn du den Thinking Mode im Plus-Abo aktivierst, generiert das Modell Texte auf Schildern oder in Comics zu 100 % akkurat und druckreif.
    Frage 6: Wie generiere ich ein 360-Grad-Bild? Nutze das Format 3:1 in deinem Prompt. Das Modell berechnet die linke und rechte Kante nahtlos, sodass sich das Bild perfekt zu einem 360-Grad-Panorama schließen lässt.
    Frage 7: Was ist der Thinking Mode bei der Bildgenerierung? Dieser Modus verknüpft deinen Prompt vor der Bildgenerierung mit dem internen Wissen der KI (Stand Dezember 2025) und führt bei Bedarf eine Live-Websuche durch.
    Frage 8: Warum bricht ChatGPT bei der Generierung von Personen ab? Oft greifen in Europa sehr strenge Filterrichtlinien ein. Dies passiert häufig bei Prompts, die reale oder fotorealistische Personen beschreiben.
    Frage 9: Wie löse ich das Problem mit abgebrochenen Prompts? Schalte einen VPN ein und verbinde dich mit einem US-Server. Schreibe danach einfach „Versuche es noch einmal“ in den Chatfenster.
    Frage 10: Wie erstelle ich einen zusammenhängenden Comic? Das Modell kann bis zu 8 zusammenhängende Bilder gleichzeitig generieren. Du kannst vorherige Bilder als Stilreferenz mitgeben, um Charaktere konsistent zu halten.
    Frage 11: Funktioniert ChatGPT Image 2.0 auch auf Deutsch? Ja, das Modell versteht deutsche Prompts hervorragend und kann auch fehlerfreien deutschen Text in die generierten Bilder einbauen.
    Frage 12: Unterstützt das Modell asiatische Sprachen? Absolut. Du kannst japanische oder koreanische Schriftzeichen generieren lassen. Das Modell passt dabei oft automatisch den visuellen Stil der Region an.
    Frage 13: Wie erhalte ich fotorealistische Ergebnisse? Nutze Fachbegriffe aus der Fotografie. Schreibe „photorealistic“ und ergänze Details wie „shot on 35mm film“, Kamera-Modelle oder Objektiv-Typen.
    Frage 14: Was bedeutet „iPhone Style“ beim Prompting? Dieser Zusatz im Prompt sorgt für leicht unperfekte, natürliche Schnappschüsse, die weniger wie glatte Werbebilder und mehr wie echte Fotos wirken.
    Frage 15: Kann ich Bilder im Hochglanz-Magazin-Stil erstellen? Ja. Lass dir von ChatGPT erst das perfekte Kamera-Setup für ein Magazin-Cover (z.B. Vogue) empfehlen und nutze diese technischen Daten dann im Prompt.
    Frage 16: Was ist Higgsfield in diesem Kontext? Higgsfield ist ein externer Anbieter, der den Zugriff auf verschiedene KI-Modelle per API anbietet. Dort kannst du ChatGPT Image 2.0 in 4k und höchster Qualität nutzen.
    Frage 17: Wie teuer ist ein Bild über die API? Das hängt vom Anbieter ab. Bei Higgsfield kostet ein 1k-Bild in mittlerer Qualität 2 Coins, ein 4k-Bild in High-Quality schlägt mit 12 Coins zu Buche.
    Frage 18: Kann ich YouTube-Thumbnails generieren? Ja, das Modell eignet sich hervorragend dafür. Du kannst Ränder, Schriftarten und das Layout exakt steuern und vorhandene Designs replizieren.
    Frage 19: Ist ChatGPT Image 2.0 gut für Marketing? Es ist ideal für Marketing. Du kannst ein Produkt konsistent halten und es durch die 8-Bilder-Funktion schnell in verschiedene Szenarien oder Märkte integrieren.
    Frage 20: Bleiben Charaktere in verschiedenen Bildern gleich? Ja, durch die neue Serien-Generierung und das Referenzieren von vorherigen Bildern bleiben Gesichtszüge und Outfits über mehrere Bilder hinweg identisch.

  • Tencents Hunyuan 3.0 ist die neue Nummer 1

    Hunyuan Image 3.0 Schrift

    Tencents Hunyuan 3.0 ist die neue Nummer 1 Das frei zugängliche Modell setzt neue Maßstäbe in der KI-Bilderstellung und verweist die teure Konkurrenz auf die Plätze. Kurzfassung | Andreas Becker, 08.10.25
    Tencent | All-AI.de Ein Paukenschlag für die Open-Source-Bewegung erschüttert die KI-Welt. Das chinesische Unternehmen Tencent hat mit seinem Bildgenerator Hunyuan Image 3.0 die Führung übernommen. Das frei verfügbare Modell verdrängte Googles Konkurrenzprodukt von Platz eins der wichtigen LMArena-Bestenliste. Dieser Sieg markiert einen potenziellen Wendepunkt im Wettbewerb mit den geschlossenen Systemen der Tech-Giganten. Googles überraschende Niederlage Der Erfolg von Hunyuan Image 3.0 ist ein historisches Ereignis. Erstmals seit langer Zeit führt wieder ein Open-Source-Modell das unabhängige Ranking der LMArena an. Diese Plattform, betrieben von Forschern der University of California, Berkeley, ermittelt die besten Modelle durch anonyme Abstimmungen von Nutzern. Tencents KI setzte sich dabei gegen Googles hochgelobtes Modell „Nano Banana“ durch. Die Rangliste gilt in der Szene als fairer Leistungsvergleich. Nutzer bewerten dabei die Ergebnisse zweier anonymer KIs, ohne zu wissen, welches Modell welches Bild erzeugt hat. Der erste Platz für Hunyuan Image 3.0 belegt eindrucksvoll die Konkurrenzfähigkeit quelloffener Alternativen. + Quelle: LLMArena Die Technik hinter dem Erfolg Die Überlegenheit des Modells ist kein Zufall. Tencent baute mit 80 Milliarden Parametern das größte bisher veröffentlichte Open-Source-Modell zur Bilderzeugung. Eine innovative Architektur, bekannt als Mixture-of-Experts (MoE), sorgt dabei für extreme Effizienz. Das System aktiviert pro Anfrage nur einen Bruchteil seiner Parameter, ähnlich wie ein Gehirn nur die relevanten Neuronen für eine Aufgabe nutzt. Diese technische Raffinesse unterscheidet Hunyuan Image 3.0 von vielen Konkurrenten. Das Modell basiert auf einer einheitlichen multimodalen Architektur. Es verarbeitet Text und Bildinformationen in einem integrierten Prozess und erzeugt dadurch besonders kontextbezogene und hochwertige visuelle Ergebnisse. + Quelle: Tencent Intelligenz und Zugänglichkeit Eine besondere Stärke der KI liegt in ihrer intelligenten Interpretation von Befehlen. Hunyuan Image 3.0 kann vage Anweisungen selbstständig mit passenden Details anreichern. Diese Fähigkeit zur automatischen Verbesserung von Prompts basiert auf einer gewaltigen Trainingsdatenbank. Tencent nutzte dafür fünf Milliarden Bild-Text-Paare und sechs Billionen Text-Token. Trotz der enormen Leistung stellt Tencent das Modell der Community vollständig zur Verfügung. Der Code und die trainierten Modellgewichte sind frei über Plattformen wie GitHub und Hugging Face zugänglich. Damit demokratisiert das Unternehmen den Zugang zu Spitzentechnologie und fordert die etablierten Anbieter heraus. Quelle: Tencent MITMACHEN Hat Dir der Beitrag gefallen oder geholfen? Dann hilf uns mit einem Klick weiter – dauert nur Sekunden. Teile diesen Beitrag Folge uns auf Social Media Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt KI-Tools sind teuer – unser Wissen bleibt kostenlos. Spende einmalig via PayPal oder werde YouTube-Mitglied (ab 0,99 €). Dafür liefern wir täglich News, ehrliche Tests und praxisnahe Anleitungen. Danke dir! PayPal – Spende Youtube – ABO KURZFASSUNG
    Tencents Open-Source-Modell Hunyuan Image 3.0 hat Platz 1 der LMArena-Bestenliste für Text-zu-Bild-Generierung erreicht.
    Es übertrifft damit das bisher führende Modell „Nano Banana“ von Google, was einen wichtigen Sieg für die Open-Source-Community darstellt.
    Die Leistung basiert auf seiner enormen Größe von 80 Milliarden Parametern und einer effizienten Mixture-of-Experts-Architektur.
    Das Modell ist mitsamt Code und Gewichten frei verfügbar, was den Zugang zu KI-Spitzentechnologie demokratisiert.
    QUELLEN
    Tencent Hunyuan GitHub
    Tech360.tv
    OpenSourceForU
    South China Morning Post

  • Google aktualisiert Gemini 2.5 Flash Image aka Nano Banana mit neuen Funktionen

    Das Bildmodell Gemini 2.5 Flash Image ist jetzt allgemein verfügbar. Es erlaubt unter anderem gezielte Bildbearbeitung per Spracheingabe, konsistente Charakterdarstellungen und die Auswahl aus zehn Seitenverhältnissen.

    Der Artikel Google aktualisiert Gemini 2.5 Flash Image aka Nano Banana mit neuen Funktionen erschien zuerst auf THE-DECODER.de.

  • Nano Banana Vollversion erschienen mit 11 Bildformaten

    Eine Banana in vielen Formaten

    Nano Banana Vollversion erschienen mit 11 Bildformaten Beim Gemini Flash 2.5 Image Model sind jetzt 21:9, 16:9, 5:4, 4:3, 3:2, 1:1 sowie deren Umkehrungen auswählbar. Kurzfassung | Andreas Becker, 03.10.25
    Nano Banana | All-AI.de EINLEITUNG Wer mit KI-Bildgeneratoren arbeitet, kannte das Problem: Man wünschte sich ein Bild im Breitbildformat und erhielt trotzdem nur ein Quadrat. Google behebt dieses Ärgernis nun mit einem wichtigen Update. Das unter dem Spitznamen „Nano Banana“ bekannt gewordene Modell Gemini 2.5 Flash Image ist jetzt für den breiten Einsatz verfügbar und bringt elf verschiedene Seitenverhältnisse mit. Damit reagiert das Unternehmen direkt auf eine der meistgenannten Forderungen seiner Nutzer und macht einen entscheidenden Schritt in Richtung professioneller Anwendung. NEWS Vom Quadrat zur Kinoleinwand Die wohl wichtigste Neuerung ist die Implementierung von elf verschiedenen Seitenverhältnissen, die Nutzern deutlich mehr kreative Freiheiten geben. Das Spektrum reicht von filmischen Formaten wie 21:9 und 16:9 über klassische Fotoformate bis hin zu Hochkant-Optionen wie 9:16, die für Social-Media-Anwendungen unerlässlich sind. Damit wird ein kritischer Fehler behoben, der zuvor trotz präziser Anweisungen oft nur quadratische Bilder mit 1024×1024 Pixeln lieferte. Diese erweiterte Vielfalt ermöglicht es Entwicklern und Kreativen, Inhalte gezielt für verschiedene Plattformen und Zwecke zu erstellen, ohne umständliche Nachbearbeitung. Ob für eine Präsentation, einen Blogartikel oder eine Instagram-Story – das gewünschte Format lässt sich nun direkt bei der Generierung festlegen. Google stellt das Modell über seine Programmierschnittstellen, das AI Studio und die Unternehmensplattform Vertex AI zur Verfügung. + Quelle: Google – Im Gemini Studio bereits auswählbar Intelligente Bildbearbeitung setzt neue Maßstäbe Neben den neuen Formaten überzeugt Gemini 2.5 Flash Image mit fortschrittlichen Bearbeitungsfunktionen. Das System kann mehrere Bilder nahtlos miteinander verschmelzen und passt dabei Beleuchtung und Texturen intelligent an. Besonders hervorzuheben ist die Fähigkeit, die Konsistenz von Charakteren über mehrere Bilder hinweg beizubehalten – ein Merkmal, das für erzählerische Projekte entscheidend ist. Änderungen lassen sich zudem durch einfache Textbefehle steuern, ohne dass unbeabsichtigte Bildbereiche verändert werden. Erste Unternehmen nutzen diese Fähigkeiten bereits. Die Firma Cartwheel etwa kombiniert das Modell mit einem 3D-Werkzeug, um Künstlern präzise Kontrolle über die Darstellung von Figuren aus jedem Kamerawinkel zu geben. Der Spieleentwickler Volley setzt die KI für die Bildgenerierung in Echtzeit während des Spiels ein und profitiert von der hohen Geschwindigkeit des Modells, das Ergebnisse in unter zehn Sekunden liefert. + Quelle: Google – jetzt als Vollversion Preisdruck und verbleibende Grenzen Im direkten Wettbewerb positioniert sich Google auch preislich attraktiv. Mit rund vier Cent pro Bild ist die Generierung etwa 40 Prozent günstiger als bei OpenAIs Konkurrenzmodell. Eine kostenlose Variante im Google AI Studio erlaubt bis zu 500 Anfragen pro Tag für Testzwecke. Trotz der Fortschritte bleiben jedoch technische Hürden bestehen. Die maximale Auflösung von 1024 Pixeln limitiert die Nutzung für hochauflösende Druckanwendungen. Zudem hat das Modell noch Schwierigkeiten mit der korrekten Darstellung kleinerer Textdetails. Alle erstellten Bilder werden mit einem digitalen Wasserzeichen versehen, um sie klar als KI-generiert zu kennzeichnen. MITMACHEN Hat Dir der Beitrag gefallen oder geholfen? Dann hilf uns mit einem Klick weiter – dauert nur Sekunden. Teile diesen Beitrag Folge uns auf Social Media Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt KI-Tools sind teuer – unser Wissen bleibt kostenlos. Spende einmalig via PayPal oder werde YouTube-Mitglied (ab 0,99 €). Dafür liefern wir täglich News, ehrliche Tests und praxisnahe Anleitungen. Danke dir! PayPal – Spende Youtube – ABO KURZFASSUNG Google hat Gemini 2.5 Flash Image für den Produktionseinsatz freigegeben und unterstützt nun zehn verschiedene Seitenverhältnisse für flexible Bildgenerierung. Das System ermöglicht fortschrittliche Bildbearbeitung mit Charakterkonsistenz, Multi-Bild-Fusion und natürlichsprachlichen Befehlen bei Latenzzeiten unter zehn Sekunden. Unternehmen wie Cartwheel und Volley nutzen bereits erfolgreich die neuen Funktionen für kreative Anwendungen und Echtzeit-Spielerlebnisse. Mit einem Preis von 0,039 US-Dollar pro Bild positioniert sich Google kostengünstiger als Konkurrenten, wobei 500 kostenlose tägliche Anfragen für Entwickler verfügbar sind. QUELLEN Testing Catalog Google Developers Blog The Decoder BundB Blog Seeking Alpha