Schlagwort: Bilder

  • Open-Source-KI GeoVista findet Aufnahmeorte von Fotos durch Zoom und Websuche

    Stilisierte Weltkugel mit blau-gelben Kontinenten und rotem Standort-Pin vor dunkelblauem Raster-Hintergrund.

    Ein Forschungsteam aus China hat mit GeoVista ein Open-Source-KI-Modell vorgestellt, das Bilder analysiert und gleichzeitig das Internet durchsucht, um deren Aufnahmeort zu bestimmen. Das Modell soll die Leistung kommerzieller Systeme wie Gemini-2.5-flash erreichen.

    Der Artikel Open-Source-KI GeoVista findet Aufnahmeorte von Fotos durch Zoom und Websuche erschien zuerst auf The Decoder.

  • ElevenLabs: Ein Abo für Audio-, Bild- und Videogeneration

    Elevenlabs Oberfläche Videogeneration

    Nano Banana

    Kurzfassung

    Quellen

    ElevenLabs erweitert sein Angebot von reiner Audio-Erstellung hin zu einer kompletten Suite für Bild- und Videoproduktion. Die Plattform integriert führende Drittanbieter-Modelle wie Google Veo, OpenAI Sora und Kling direkt in das Interface. Mit dem neuen Studio 3.0 lassen sich visuelle Inhalte nahtlos mit Voiceovers und Soundeffekten kombinieren. Zur Einführung der neuen Funktionen gewährt der Anbieter derzeit 22 Prozent Rabatt auf die Pläne.

    ElevenLabs Official – Image & Video Creative Platform

    ElevenLabs kennt man primär für täuschend echte KI-Stimmen. Jetzt baut das Unternehmen seine Plattform massiv weiter aus. Nutzer erstellen ab sofort nicht nur Audio, sondern auch Bilder und Videos direkt bei Elevenlabs im Browser. Die Integration verschiedener Top-KI-Modelle an einem Ort beschleunigt kreative Prozesse erheblich. ANZEIGE – Neben den 50% Rabatt auf den Creator Plan gibt es auf die Bilder und Videogeneration in den ersten 7 Tagen zusätzlich noch einmal 22% Rabatt. Vom Sprachprofi zur Multimedia-Suite ElevenLabs galt lange als die unangefochtene Referenz für synthetische Stimmen und Audio-Dubbing. Nun bricht das Unternehmen konsequent aus der reinen Audio-Nische aus. Die Plattform öffnet sich vollständig für visuelle Medien und wandelt sich zur umfassenden Creative Suite. Nutzer generieren ab sofort Bilder und Videos direkt im bekannten Browser-Interface. Das spart den nervigen Wechsel zwischen verschiedenen Anwendungen und bündelt alle kreativen Arbeitsschritte an einem Ort. Die Strategie ist offensichtlich: ElevenLabs will nicht mehr nur ein Werkzeug für die Tonspur sein, sondern das zentrale Betriebssystem für generative Medien werden. Für Creator bedeutet das weniger Reibungsverluste im Workflow und eine deutlich schnellere Produktion von Inhalten für Social Media oder Marketing.
    Cookies aktivieren um den Inhalt zu sehen:
    Cookiebar öffnen

    Introducing ElevenLabs Image & Video – the best audio, image and video models now in one platform. Generate with leading models like Veo, Sora, Kling, Wan and Seedance, then enhance with the highest quality voices, music, and sound effects. pic.twitter.com/bdj0zhHq8h — ElevenLabs (@elevenlabsio) November 17, 2025 Die besten Modelle unter einem Dach Die technische Umsetzung überrascht durch einen cleveren Schachzug. Statt das Rad neu zu erfinden oder Jahre in eigene Videomodelle zu investieren, setzt ElevenLabs auf Aggregation. Die Plattform integriert die aktuell leistungsstärksten Modelle der Branche direkt in das eigene System. Schwergewichte wie Google Veo und OpenAI Sora stehen auf der Liste der verfügbaren Engines. Ergänzt wird das Angebot durch weitere potente Modelle wie Kling, Wan und Seedance. Anwender greifen zentral auf diese Technologien zu, ohne separate Accounts oder Abonnements bei jedem einzelnen Anbieter verwalten zu müssen. Das senkt die Einstiegshürde für hochwertige KI-Videos massiv. Man wählt einfach das passende Modell für den gewünschten Stil aus und startet die Generierung direkt aus der ElevenLabs-Oberfläche heraus. Ein weiterer Vorteil ist, dass, wenn am Ende des Monats noch Coins übrig sind, diese auch für die Bilder- und Videogeneration verwendet werden können. Damit ist ein Abo noch wertvoller. + Quelle: Elevenlabs Studio 3.0 verknüpft die Sinne Das Herzstück der Expansion bildet das aktualisierte Studio 3.0. Hier laufen alle kreativen Fäden logisch zusammen. Ein Video entsteht nicht mehr isoliert, sondern parallel zur passenden Vertonung. Nutzer kombinieren die frisch generierten Clips nahtlos mit den bekannten Voiceovers, Hintergrundmusik und Soundeffekten. Die Synchronisation von Bild und Ton, oft ein zeitfressender Schritt in der Postproduktion, geschieht hier in einer einheitlichen Umgebung. Der Workflow bleibt dabei intuitiv und schnell. Wer den erweiterten Funktionsumfang direkt ausprobieren möchte, erhält aktuell einen finanziellen Anreiz. ElevenLabs gewährt zum Start der neuen Features 22 Prozent Rabatt auf die Abonnements. Damit positioniert sich das Unternehmen endgültig als ernstzunehmender Allrounder im hart umkämpften Markt für Content-Creation-Tools. + Quelle: Elevenlabs

  • KI-Modell DeepEyesV2 nutzt Werkzeuge statt Wissen – und schlägt größere Konkurrenz

    Positionserkennungsrätsel: 4×4-Raster mit 16 Comic- und Maskottchen-Figuren, Frage nach der Figur in Reihe 3, Spalte 1.

    DeepEyesV2 ist ein multimodales KI-Modell, das Bilder analysiert, Code ausführt und das Web durchsucht. Statt mit purem Wissen schlägt DeepEyesV2 größere Modelle mit intelligenter Werkzeugnutzung. Das Modell ist unter der Apache-2.0-Lizenz nutzbar.

    Der Artikel KI-Modell DeepEyesV2 nutzt Werkzeuge statt Wissen – und schlägt größere Konkurrenz erschien zuerst auf The Decoder.

  • Baidus neues ERNIE-Modell bearbeitet Bilder während des Denkprozesses

    Der chinesische Such- und Internetkonzern Baidu stellt die neueste Version seines Chatbots Ernie vor, der deutlich bessere Ergebnisse liefern soll als bisher. Außerdem erhält er Unterstützung für Plugins.

    Baidu hat mit ERNIE-4.5-VL-28B-A3B-Thinking ein Reasoning-Model veröffentlicht, das Bilder während des Denkprozesses ver- und bearbeiten kann, etwa einzoomen, um Text besser lesen zu können.

    Der Artikel Baidus neues ERNIE-Modell bearbeitet Bilder während des Denkprozesses erschien zuerst auf The Decoder.

  • Popcorn zerstört Nano Banana

    Ein Popcorn Charakter schlägt einen Bananen Charakter

    Nano Banana

    Kurzfassung

    Quellen

    Higgsfield AI veröffentlicht „Popcorn“, ein neues KI-Tool zur Erstellung von Storyboards. Popcorn löst das Kernproblem der mangelnden Charakterkonsistenz, woran Konkurrenten wie Nano Banana oft scheitern. Die Technologie hält Gesichter, Kleidung und Stil über mehrere Bilder hinweg stabil. Dies vereinfacht die Erstellung von visuellen Geschichten für Creator und Werbetreibende drastisch.

    Higgsfield AI – Offizielle Website Popcorn Alex Mashrabov (CEO Higgsfield AI) – LinkedIn SaaStr – „Higgsfield — The Video AI Platform That’s Crushing It Where Everyone Else Is Still Prompting“ BusinessWire – „Scale Asia Ventures Receives Dual Nominations“ DIGITIMES – „GMI Cloud攜手AI獨角獸Higgsfield“

    Higgsfield Popcorn: Neues KI-Tool löst das Problem der Bildkonsistenz Higgsfield AI stellt sein neues Storyboard-Tool „Popcorn“ vor. Es verspricht, ein großes Ärgernis der KI-Bilderstellung zu beheben: die Charakterkonsistenz. Bisherige Tools wie Nano Banana scheiterten oft daran, Figuren über mehrere Bilder gleich aussehen zu lassen. Popcorn soll das jetzt deutlich besser machen. Ich habe die Funktion bereits selbst ausprobiert und bin absolut überzeugt. Über den Link können aktuell täglich bis zu 40 Bilder gratis generiert werden: zu Higgsfield (Affliate Link). Das Konsistenz-Dilemma der KI-Bilder Jeder, der mit KI-Bildgeneratoren arbeitet, kennt das Problem. Man erstellt einen Charakter in einer bestimmten Szene und bittet die KI um eine neue Pose oder einen anderen Winkel. Das Ergebnis ist oft frustrierend: Plötzlich hat die Figur ein anderes Gesicht, trägt andere Kleidung oder die Beleuchtung der Szene ändert sich komplett. Dieses Inkonsistenz-Problem macht es fast unmöglich, zusammenhängende visuelle Geschichten oder Storyboards zu erstellen. Werkzeuge wie das beliebte Nano Banana kämpfen genau damit. Obwohl sie schnell Bilder liefern, weichen die Ergebnisse von Bild zu Bild stark voneinander ab. Für Kreative bedeutet das stundenlange Nachbearbeitung, um eine glaubwürdige Sequenz zu montieren.

    Popcorn hält Charaktere stabil Higgsfield AI tritt an, um genau dieses Hindernis zu beseitigen. Ihr neues Tool „Popcorn“ spezialisiert sich auf die Erstellung von Storyboards aus einer einzigen Vorlage. Nutzer laden entweder ein bestehendes Bild hoch oder starten mit einem Text-Prompt. Die KI generiert daraus eine Serie von mehreren Bildern, oft bis zu acht Frames, die eine logische Abfolge zeigen. Der entscheidende Vorteil: Der Charakter, der gewählte Kunststil und die Atmosphäre der Szene bleiben über alle Bilder hinweg stabil. Erste Vergleiche, die in sozialen Medien und auf Videoplattformen kursieren, zeigen einen deutlichen Unterschied. Wo Nano Banana bei der Erstellung von acht Szenen acht verschiedene Gesichter liefert, behält Popcorn die Identität der Figur, die Kleidung und den Hintergrund bei. Vom Einzelbild zum fertigen Storyboard Die Technologie von Popcorn geht über die reine Bilderstellung hinaus. Sie ermöglicht es, aus einer Vorlage eine komplette Szene mit verschiedenen Kamerawinkeln und Posen zu entwickeln, die eine kohärente Erzählung bilden. Das Werkzeug analysiert das Ausgangsbild und schlägt passende Folgebilder vor, die die Geschichte weitererzählen. Dieser Ansatz spart Kreativen enorm viel Zeit. Die Zielgruppen sind klar definiert: Content-Creator, die schnell visuelle Inhalte für Social Media benötigen, Werbeagenturen, die Kampagnen visualisieren, und sogar Filmemacher in der Vorproduktion. Statt mühsam einzelne Bilder anzugleichen, liefert die KI eine konsistente Basis für das gesamte Storyboard. Higgsfield auf dem Vormarsch Hinter dem Tool steht Higgsfield AI, ein Unternehmen, das im Bereich der KI-Videogenerierung zunehmend an Bedeutung gewinnt. Das von Alex Mashrabov geführte Unternehmen positioniert sich als Spezialist für KI-Plattformen, die sich auf Video und konsistente Bilder fokussieren. Berichte über Partnerschaften, etwa mit GMI Cloud, und positive Erwähnungen in Wirtschaftsmedien wie SaaStr zeigen, dass das Unternehmen Aufmerksamkeit erregt. Auch Nominierungen für Branchenpreise, wie von Scale Asia Ventures, deuten auf wachsendes Vertrauen von Investoren hin. Die Veröffentlichung von Popcorn ist ein gezielter Vorstoß, um ein spezifisches, aber weit verbreitetes Problem der Kreativbranche zu lösen.

  • Die beste Bilder KI kommt jetzt von Google!

    AI Caramba wird im Dschungel mit Bananen beworfen

    Die beste Bilder KI kommt jetzt von Google! ChatGPT? Photoshop? Der neue Spitzenreiter macht einiges deutlich besser! Kurzfassung | Andreas Becker, 26.08.25
    Gemini Flash | All-AI.de EINLEITUNG Google hat ein neues KI-Modell vorgestellt, das Bilder auf ein ganz neues Niveau bringt. Mit „Gemini 2.5 Flash Image“ lassen sich Fotos und Grafiken direkt in der Gemini-App bearbeiten – einfach per Texteingabe. Die Technik sorgt dafür, dass Personen, Tiere oder Produkte trotz Veränderungen wiedererkennbar bleiben. Auch komplexe Bildkombinationen sind jetzt möglich. Das Modell steht ab sofort für Nutzer und Entwickler zur Verfügung und erreicht in den meisten Kategorien Bestwerte! + Quelle: Google Gemini NEWS Einfach Texte eingeben, Bild ändern lassen Das Herzstück des neuen Modells ist die direkte Bearbeitung von Bildern durch Textbefehle. Nutzer können zum Beispiel den Hintergrund eines Fotos unscharf machen, Farben ändern oder störende Objekte entfernen – ganz ohne Bildbearbeitungsprogramm. Die KI versteht, was gemeint ist, und setzt die Anweisung direkt um. Das funktioniert selbst bei mehreren Änderungen hintereinander, ohne dass die Bildqualität darunter leidet. In der Praxis bedeutet das: Man lädt ein Bild hoch, schreibt zum Beispiel „Hintergrund weichzeichnen und Licht wärmer machen“, und die KI erledigt den Rest. Laut Google nutzt das Modell dabei sein allgemeines Weltwissen, um realistische Ergebnisse zu liefern. Besonders bei Alltagsgegenständen, Kleidung oder Lichtstimmungen wirkt das Ergebnis natürlicher als bei früheren Versionen. + Quelle: Google Gemini Wiedererkennbare Gesichter und Motive Eine große Schwäche vieler KI-Bildgeneratoren war bisher die fehlende Konsistenz: Eine Person sah auf jedem Bild anders aus. Mit Gemini 2.5 Flash hat Google dieses Problem gezielt gelöst. Das Modell kann eine Figur, ein Tier oder ein Objekt über mehrere Bilder hinweg gleich aussehen lassen – selbst bei unterschiedlichen Blickwinkeln, Posen oder Hintergründen. Das ist zum Beispiel praktisch für Unternehmen, die Serienbilder für Kataloge, Kampagnen oder Webseiten erstellen. Auch Privatnutzer können so aus einem Fotoalbum einheitliche Motive machen, ohne jedes Bild einzeln zu bearbeiten. Die KI erkennt Details und hält diese stabil – ohne, dass man es ihr extra beibringen muss. + Quelle: Google Gemini Mehrere Bilder verschmelzen zu einer neuen Szene Gemini 2.5 Flash kann auch verschiedene Fotos zu einem einzigen neuen Bild kombinieren. Wer zum Beispiel ein Produktfoto und ein Wohnzimmerbild hochlädt, bekommt eine realistische Szene mit dem Produkt im Raum. Die KI erkennt Perspektive, Licht und Farben und passt alles automatisch an. Ein weiteres Feature ist der sogenannte Stiltransfer. Dabei kann man etwa das Muster eines Kleides auf ein anderes Objekt übertragen – zum Beispiel auf einen Stiefel. Form und Proportionen bleiben erhalten, nur das Design ändert sich. Damit lassen sich kreative Varianten für Mode, Deko oder Werbung erzeugen – ganz ohne Grafikkenntnisse. + Quelle: Google Gemini Verfügbarkeit, Preis und Zugang Die neue Funktion ist direkt in der Gemini-App nutzbar. Wichtig ist: Man muss das Bildmodell „Flash“ auswählen, nicht das bisherige „Imagen“. Das ist etwas versteckt, aber sinnvoll – denn „Flash“ ist ein echtes Sprachmodell mit Bildfunktionen, kein reiner Bildgenerator. Alle Bilder, die über Gemini 2.5 Flash erstellt oder verändert werden, erhalten ein sichtbares Wasserzeichen und zusätzlich ein digitales Wasserzeichen, das unsichtbar im Bild gespeichert ist. So lässt sich jederzeit erkennen, dass es sich um KI-Bilder handelt. Für Entwickler gibt es das Modell auch in der Vorschauversion über die Gemini API, Google AI Studio und Vertex AI. Die Nutzung kostet etwa 0,040 US-Dollar pro Bild. Technisch entspricht das rund 1.290 sogenannten Token pro Bild – eine rechnerische Einheit für den Datenverbrauch. Einordnung und Ausblick Google geht mit Gemini 2.5 Flash einen wichtigen Schritt in Richtung praxisnahe Bildbearbeitung per KI. Während andere Anbieter sich vor allem auf reine Bildgenerierung konzentrieren, verbindet Google Spracheingabe, Bearbeitung und visuelles Verständnis in einem Modell. Das spart Wechsel zwischen Tools und macht die Anwendung alltagstauglicher. Für Nutzer bedeutet das: Bilder bearbeiten funktioniert jetzt einfacher, genauer und konsistenter – und zwar direkt mit der Spracheingabe, die man von Chatbots kennt. Ob das in Zukunft den Umgang mit klassischer Bildbearbeitung dauerhaft verändert, hängt auch davon ab, wie intuitiv die Bedienung bleibt. Aber der erste Eindruck: vielversprechend. DEIN VORTEIL – DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
    Google hat mit Gemini 2.5 Flash ein neues KI-Modell veröffentlicht, das Bilder per Spracheingabe bearbeiten kann.
    Die KI sorgt für konsistente Gesichter und Objekte über mehrere Bilder hinweg und kann verschiedene Fotos zu einer neuen Szene verschmelzen.
    Das Tool ist direkt in der Gemini-App nutzbar und für Entwickler über mehrere Google-Plattformen zugänglich.
    Mit Funktionen wie Stiltransfer und realistischer Lichtanpassung verändert Google den Standard der KI-Bildbearbeitung deutlich.
    QUELLEN
    Google Developers Blog
    DeepMind Modelseite
    TechCrunch
    Axios

  • Command A Vision: Coheres neues KI-Modell versteht Bilder und Dokumente

    Cohere bringt mit Command A Vision ein KI-Modell heraus, das besonders gut Bilder, Diagramme, PDFs und andere visuelle Daten analysieren kann.

    Der Artikel Command A Vision: Coheres neues KI-Modell versteht Bilder und Dokumente erschien zuerst auf THE-DECODER.de.