Schlagwort: Omni

  • Die Top 11 Highlights der GOOGLE I/O

    Google IO Vorstellungen symbolisiert

    GPT-Images-2.0

    Kurzfassung

    Quellen

    Google stellt auf der I/O 2026 leistungsstarke KI-Modelle wie Gemini 3.5 Flash und Gemini Omni vor.
    Mit Gemini Spark erhalten Nutzer einen autonom agierenden Helfer, der Aufgaben eigenständig im Hintergrund erledigt.
    Zusätzlich präsentiert das Unternehmen intelligente Hardware in Form der Audio Glasses und führt neue KI-Tarife für professionelle Anwender ein.

    Google Blog: Gemini Products
    Google Blog: Next evolution of the Gemini app
    Google Blog: Introducing Gemini Omni

    Google eröffnet die I/O 2026 mit weitreichenden Neuerungen für die eigenen KI-Modelle. Im Fokus stehen Gemini 3.5 und autonom handelnde KI-Agenten. Wir haben die elf wichtigsten Neuerungen zusammengestellt. Nach der Nummer 1 werdet ihr alles mit anderen »Augen« sehen.

    11: Neue Tarifstrukturen für KI-Modelle Google ändert die Preisstruktur seines Ultra-Tarifs. Dieser hat nun zwei verschiedene Preisstufen: 100 $ und 200 $. Der bisherige Tarif für 250 $ entfällt komplett. Beide Ultra-Tarife haben dabei die gleichen Funktionen, aber unterschiedliche Limits. So gibt es für 100 $ beispielsweise nur 20 TB Speicherplatz anstelle von 30 GB oder 10.000 Flow Credits anstelle von 25.000. + Quelle: Google 10: Autonome Handlungen mit Gemini Spark Ein zentrales Element der Präsentation bildet Gemini Spark, ein rund um die Uhr aktiver KI-Agent. Diese Eigenentwicklung agiert autonom auf den Servern von Google und führt dort selbstständig komplexe Aufgaben aus. Nutzer müssen ihre Endgeräte nicht mehr eingeschaltet lassen, während die Berechnungen im Hintergrund laufen. Spark integriert sich nahtlos in bestehende Anwendungen und reagiert auf E-Mails sowie Nachrichten.

    Top News
    Neuer »Agent Spark« arbeitet autonom 24 Stunden für Dich
    Google zeigt einen neuen KI-Agenten für den Alltag. Das KI-Modell automatisiert digitale Arbeitsabläufe in verschiedenen Apps.

    09: SynthID kennzeichnet maschinelle Inhalte Die Markierung von KI-generierten Inhalten gewinnt zunehmend an Bedeutung. Google erweitert seine Wasserzeichen-Technologie SynthID durch strategische Partnerschaften mit Nvidia und OpenAI. Durch diese Kooperation soll eine branchenweite Lösung etabliert werden, um synthetische Medien zweifelsfrei zu identifizieren. Das schafft Vertrauen und erhöht die Transparenz bei der Nutzung mächtiger KI-Modelle. 08: Gemini Omni generiert Videos auf Zuruf Mit „Gemini Omni” präsentiert Google ein rein multimodales KI-Modell, das auf audiovisuelle Inhalte spezialisiert ist. Es wandelt Text-, Bild- und Videodaten direkt in hochauflösende Videos um. Die gezeigten Möglichkeiten sind wirklich grandios. Gerade in Bezug auf die Videobearbeitung ist quasi alles möglich, was man sich vorstellen kann. Unbedingt das Intro-Video im ausführlichen Artikel anschauen!

    Top News
    Neue KI-Modell Gemini Omni verändert die Videobearbeitung
    Nutzer generieren mit dem KI-Modell realistische Clips aus Text, Bild und Ton.

    07: Universe Commerce Protocol für den digitalen Handel Das neue Universe Commerce Protocol verbindet KI-Modelle direkt mit dem E-Commerce. Dadurch entsteht ein standardisierter Weg, wie Agenten selbstständig Käufe tätigen und Transaktionen abwickeln können. Für die meisten sicherlich weniger aufregend, aber dafür umso wichtiger für Entwickler. 06: Antigravitar 2.0 erweitert die Entwicklerbasis Entwickler erhalten mit Antigravitar 2.0 eine aktualisierte Umgebung für die Arbeit mit KI. Diese Plattform ermöglicht es, maßgeschneiderte Agenten auf Basis der eigenen KI-Modelle zu erstellen. Durch die Integration in bestehende Schnittstellen reduzieren sich die infrastrukturellen Hürden drastisch. Programmierer können sich somit auf die reine Logik ihrer Anwendungen konzentrieren. Anzeige 05: Google Flows Tools strukturieren Aufgaben Google Flow wurde vor über einem Jahr eingeführt, wies aber immer Mängel bei der Bedienung auf. Das soll sich mit den neuen Google-Flow-Tools jetzt ändern. Im Video sind zahlreiche Tools und Schaltflächen zu sehen, die die Videobearbeitung sehr einfach und kreativ machen.

    04: Daily Brief fasst den Tag zusammen Eine neue Funktion innerhalb der Gemini-App nennt sich Daily Brief. Das KI-Modell analysiert eingehende Informationen, Kalendereinträge sowie Nachrichten und erstellt daraus einen personalisierten Tagesüberblick. Statt zahlreicher Benachrichtigungen erhalten Nutzer morgens ein kompaktes Briefing. Dies erleichtert die Planung und sorgt für mehr Übersicht über anstehende Termine. 03: Gemini 3.5 Flash und Pro betreten die Bühne Das Highlight der Veranstaltung war zweifellos die Ankündigung von Gemini 3.5 Flash. Dieses KI-Modell arbeitet nicht nur deutlich schneller als andere Modelle, sondern ist auch in vielen Bereichen schneller als Gemini 3.1 Pro. Gemini 3.5 Pro wird übrigens im nächsten Monat starten.

    Top News
    Gemini 3.5 Flash schlägt 3.1 Pro
    Das Modell ist nicht nur stärker, sondern mit 289 Token pro Sekunde auch unglaublich schnell.

    02: Stich programmiert Webseiten in Echtzeit Für Webentwickler und Designer bringt Google ein großes Update für das Projekt Stich an den Start. Über einfaches Prompting baut das KI-Modell funktionale Internetauftritte in Echtzeit auf dem Bildschirm auf. Änderungswünsche setzt die KI sofort um. Nutzer müssen dafür nicht manuell in den Code eingreifen. Dies beschleunigt den Entwurfsprozess von Seiten enorm und sah erstaunlich cool aus. Im Hauptvideo zu sehen ab 2:30:35. + Quelle: Google 01: Audio Glasses integrieren KI in den Alltag Im Hardware-Bereich kündigt das Unternehmen intelligente Audio-Glasses an. Die Brille verbindet sich direkt mit KI-Modellen und liefert sofort Antworten auf gesprochene Fragen ins Ohr. Das smarte Wearable ermöglicht zudem die Navigation und den Versand von Nachrichten, ohne dass das Smartphone in die Hand genommen werden muss. Dadurch wird die KI zu einem unsichtbaren Begleiter. Besonders hervorgehoben wurde das Design. Dieses stand bei der Entwicklung der Brille an erster Stelle, darum herum wurden dann die Funktionen integriert.

    Anzeige

  • Nvidia veröffentlicht Nemotron-3 Nano Omni samt tiefem Einblick in das Training multimodaler KI

    Nvidia veröffentlicht mit Nemotron 3 Nano Omni ein offenes multimodales Modell für Text, Bild, Video und Audio. Spannend ist nicht nur die Leistung, sondern auch der Blick in die Trainingsdaten: Sie stammen unter anderem aus Qwen, GPT-OSS, Kimi und DeepSeek-OCR.

    Der Artikel Nvidia veröffentlicht Nemotron-3 Nano Omni samt tiefem Einblick in das Training multimodaler KI erschien zuerst auf The Decoder.

  • Qwen 3.5 Omni Plus schlägt Gemini 3.1 Pro

    Ein Qwen Bär benutzt ein Smartphone

    Nano Banana

    Kurzfassung

    Quellen

    Qwen hat die neuen KI-Modelle Qwen 3.5 Omni Plus und die dazugehörige Realtime-Version für Entwickler veröffentlicht.
    Die Modelle verarbeiten Text, Bild und Audio nativ über eine effiziente MoE-Architektur mit einem Kontextfenster von 256.000 Token.
    In aktuellen Benchmarks erreicht Qwen 3.5 Omni Plus insgesamt 215 Bestwerte und schlägt Gemini 3.1 Pro in Audio- und Videotests.
    Die Echtzeit-API ermöglicht natürliche Unterhaltungen durch semantische Unterbrechungen, schnelles Voice-Cloning und verbesserte Mehrsprachigkeit.

    Qwen Blog: Neue Modelle: Qwen 3.5 Omni Plus und Qwen 3.5 Omni Plus Realtime

    Qwen stellt mit Qwen 3.5 Omni Plus und der zugehörigen Realtime-Version die nächste Generation seiner KI-Modelle vor. Die neuen Modelle schlagen Gemini 3.1 Pro in zahlreichen Audio-Tests und bieten weitreichende Verbesserungen bei der Verarbeitung langer Kontexte. Die Architektur hinter der Omni-Verarbeitung Der Begriff »Omni« steht bei den neuen Modellen für die Fähigkeit, Text, Bilder, Audio und audiovisuelle Inhalte nativ und parallel zu verarbeiten. Das System erfasst die unterschiedlichen Eingabedaten direkt, ohne sie vorher in reinen Text umzuwandeln. Die Basis von Qwen 3.5 Omni bildet eine Hybrid-Attention MoE-Architektur. Das Kürzel MoE bedeutet Mixture of Experts und sichert eine hohe Effizienz bei der Berechnung. Sowohl die Komponente für das logische Schließen, der sogenannte »Thinker«, als auch das Sprachmodul, der »Talker«, greifen auf diese Struktur zurück. Die Modelle analysieren ein Kontextfenster von bis zu 256.000 Token. Damit werten Fachanwender mehr als zehn Stunden reines Audiomaterial oder über 400 Sekunden an Videomaterial in einer Auflösung von 720p am Stück aus. + Quelle: Qwen Zwei Wege für Entwickler: Offline-Analyse und Echtzeit-Dialog Programmierer steuern die neuen KI-Modelle über zwei verschiedene Schnittstellen an. Die klassische Offline-API eignet sich primär für die Analyse großer, bereits aufgezeichneter Datenmengen. Hier liegt der Fokus auf der genauen Auswertung komplexer Dokumente oder der inhaltlichen Zusammenfassung langer Videos. Die Realtime-Version zielt exakt auf die direkte Konversation ab. Qwen integriert hier neue Funktionen wie semantische Unterbrechungen. Das KI-Modell erkennt sofort, wenn eine Person ins Wort fällt, und passt seine eigene Antwort dynamisch an den neuen Kontext an. Zusätzlich bietet die Echtzeit-Schnittstelle das direkte Klonen von Stimmen und eine schnelle Sprachsteuerung. Durch den Einsatz der neuen ARIA-Technologie klingen die synthetischen Stimmen natürlicher und bleiben auch bei langen Unterhaltungen fehlerfrei. Das Modell versteht Eingaben in 113 Sprachen und Dialekten, während die Sprachausgabe 36 Sprachen abdeckt. Anzeige Konkrete Benchmark-Ergebnisse für Audio und visuelle Daten Qwen 3.5 Omni Plus erzielt in aktuellen Tests insgesamt 215 Bestwerte. Diese SOTA-Ergebnisse verteilen sich auf die Bereiche Audio- und Videoverständnis, logisches Reasoning sowie die direkte Interaktion. Die Entwickler trainierten die KI-Modelle mit umfangreichen Text- und Bilddatensätzen sowie über 100 Millionen Stunden an audiovisuellem Material. Im Segment der audiovisuellen Aufgaben liefert das direkte Duell mit Gemini 3.1 Pro ein differenziertes Bild. Qwen 3.5 Omni Plus punktet bei der Text Query QA im DailyOmni-Test mit 84,6 zu 82,7 Punkten und übertrifft das Google-Modell beim Omni-Cloze-Benchmark für Captions mit 64,8 zu 57,2 deutlich. Gemini 3.1 Pro behält jedoch bei der VideoMME-Auswertung mit 89,0 zu 83,7 die Oberhand. + Quelle: Qwen Bei den reinen Audiotests dominiert Qwen in wesentlichen Disziplinen. Im VoiceBench-Dialogtest verbucht Qwen 3.5 Omni Plus starke 93,1 Punkte und schlägt Gemini 3.1 Pro, das hier auf 88,9 Punkte kommt. Auch bei der Spracherkennung im Fleurs-Test liefert das Modell mit einem Messwert von 6,55 das exaktere Resultat im Vergleich zu den 7,32 des Konkurrenten. + Quelle: Qwen Leistungssprünge bei Text, Bild und Sprachsynthese Die visuelle Analysefähigkeit beweist das neue Modell durch konstante Ergebnisse in anspruchsvollen Kategorien. Im MMMU-Test für mathematisch-naturwissenschaftliche Aufgaben erreicht Qwen 3.5 Omni Plus exakt 80,1 Punkte. Bei der allgemeinen Beantwortung von Fragen zu Bildern im RealWorldQA-Benchmark sichert sich das System 84,1 Punkte, während es bei der reinen Videoauswertung im VideoMME-Test auf 81,9 Punkte kommt. + Quelle: Qwen Im klassischen Textverständnis liefert das KI-Modell verlässliche Werte für komplexe Anforderungen. Das System erreicht beim Wissenstest MMLU-Pro 85,9 Punkte und erzielt im IFEval-Benchmark für das strikte Befolgen von Instruktionen 89,7 Punkte. Bei den speziellen Reasoning-Aufgaben im LiveCodeBench v6 steht zudem ein solides Ergebnis von 65,6 Punkten auf dem Papier. + Quelle: Qwen Die Sprachsynthese und das Klonen von Stimmen testet der Benchmark im direkten Vergleich mit etablierten Spezialisten wie ElevenLabs und GPT-Audio. Qwen 3.5 Omni Plus glänzt bei der Stabilität der geklonten Stimmen im mehrsprachigen Test mit einem niedrigen Fehlerwert von 1,87 und lässt ElevenLabs mit 10,29 weit hinter sich. Auch bei der Metrik für generelle Sprachstabilität unterbietet Qwen mit 5,82 den Messwert von Gemini 2.5 Pro, das hier 6,61 erreicht. + Quelle: Qwen Der Entwicklungssprung von Version 3 auf 3.5 Die Vorgängerversion legte den Grundstein für die multimodale Verarbeitung bei Qwen. Das Update auf Version 3.5 erweitert diese Fähigkeiten nun gezielt um eine exaktere Mehrsprachigkeit und ein tieferes inhaltliches Verständnis für hochauflösende Videos. Das neue Modell behält den inhaltlichen Faden in sehr langen Unterhaltungen nun deutlich besser bei. Softwareentwickler erhalten somit eine präzise Lösung für komplexe und andauernde Aufgaben. Die Modelle Qwen 3.5 Omni Plus sowie die Realtime-Variante stehen ab sofort über die offizielle API zur Verfügung.

  • Hugging Face startet mit Omni Chat einen KI-Router für Open-Source-Modelle

    Muster aus gelben 'Umarmungs-Emojis' mit fröhlichem Gesicht und auffälligem chromatischen 3D-Effekt auf hellem Hintergrund.

    Hugging Face startet mit HuggingChat Omni ein neues Routing-System, das automatisch aus über 100 Open-Source-Modellen das passende Modell für eine Nutzeranfrage auswählt.

    Der Artikel Hugging Face startet mit Omni Chat einen KI-Router für Open-Source-Modelle erschien zuerst auf THE-DECODER.de.