Schlagwort: Modell

Elite-Studenten trainieren OpenAIs Musik-KI

Nano Banana

Kurzfassung
▾

Quellen
▾

OpenAI entwickelt ein neues KI-Modell zur Musikgenerierung und tritt damit in Konkurrenz zu Suno und Udio. Das Modell soll Musik aus Textbefehlen oder Audio-Uploads erstellen können, etwa Begleitmusik zu Gesang. Für das Training arbeitet OpenAI mit Studenten der renommierten Juilliard School zusammen, um Notenmaterial aufzubereiten. Dies markiert OpenAIs Rückkehr zur Musik-KI nach früheren Forschungsmodellen wie Jukebox (2020).

The Information OpenAI (Jukebox) The Decoder Moomoo Futunn

Nach Text und Video nimmt sich OpenAI nun die Musik vor. Das Unternehmen entwickelt Berichten zufolge ein neues KI-Modell, das Musik generieren kann. Damit tritt der ChatGPT-Erfinder in direkte Konkurrenz zu den aufstrebenden Startups Suno und Udio, die diesen Markt zuletzt aufmischten. Vom Text-Prompt zum kompletten Song Das neue Werkzeug soll nicht nur einfache Textbefehle in Musik umwandeln. Es geht einen Schritt weiter und verarbeitet offenbar auch Audio-Eingaben. Nutzer könnten beispielsweise eine Gesangsspur hochladen und die KI anweisen, eine passende Gitarrenbegleitung oder ein Schlagzeug-Pattern zu ergänzen. Diese Fähigkeit positioniert das Modell direkt gegen die Dienste von Suno und Udio. Diese beiden Startups hatten in den letzten Monaten für Aufsehen gesorgt, indem sie KI-Musikgenerierung für die breite Masse zugänglich machten. OpenAI will nun offensichtlich ein Stück dieses wachsenden Marktes erobern. Klassische Expertise für das KI-Training Um die Qualität des Modells zu sichern, geht OpenAI einen interessanten Weg. Statt sich nur auf Daten aus dem Internet zu verlassen, arbeitet das Unternehmen offenbar mit Studenten der Juilliard School zusammen. Die renommierte New Yorker Kunsthochschule ist weltberühmt für ihre Musikausbildung. Die Aufgabe der Studenten besteht laut Berichten darin, Notenmaterial professionell aufzubereiten und zu sichten. Dieser Ansatz deutet darauf hin, dass OpenAI ein tieferes musikalisches Verständnis in seine KI integrieren will, anstatt nur Muster von Audio-Dateien zu kopieren. Qualität scheint hier vor reiner Quantität zu stehen. OpenAIs Rückkehr zur Musik-KI Ganz neu ist das Feld für das Unternehmen nicht. Bereits 2019 präsentierte OpenAI „MuseNet“, das musikalische Stücke komponieren konnte. 2020 folgte „Jukebox“, ein Modell, das Musik inklusive Gesang in verschiedenen Stilen erzeugte. Beide Projekte waren technologisch beeindruckend, aber langsam und für den Massenmarkt ungeeignet. Sie dienten primär der Forschung. Nachdem Konkurrenten die kommerziellen Möglichkeiten bewiesen haben, kehrt OpenAI nun mit einer neuen Generation von Werkzeugen in diesen Sektor zurück. Der Schritt signalisiert OpenAIs Ambition, alle wichtigen kreativen Bereiche – Text, Bild, Video und nun auch Audio – mit eigenen Modellen zu besetzen.
Lightricks LTX-2 besser als Sora 2?

Lightricks

Kurzfassung
▾

Quellen
▾

Lightricks hat LTX-2 vorgestellt, ein Open-Source-Modell zur KI-Videogenerierung. Die KI erstellt Videos in nativer 4K-Auflösung mit bis zu 50 FPS und synchronisiertem Audio in einem Schritt. Das Modell läuft effizient auf handelsüblichen Consumer-Grafikkarten und soll 50% günstiger als Konkurrenten sein. LTX-2 positioniert sich als offene Alternative zu geschlossenen Systemen wie OpenAI Sora 2 und Google Veo 3.1.

Lightricks (offizieller Twitter-Account @ltx_model) – Ankündigung vom 23. Oktober 2025 Lightricks Blog – Introducing LTX-2: A New Chapter in Generative AI Lightricks LinkedIn (Zeev Farbman, CEO) – Offizielle Ankündigung vom 22. Oktober 2025 Lightricks offizielle Website – LTX-2 Produktseite PR Newswire – Lightricks Releases LTX-2: The First Complete Open-Source AI Video Foundation Model, 23. Oktober 2025

4K-Videos mit 50 Bildern pro Sekunde, direkt von der KI. Das israelische Unternehmen Lightricks stellt sein neues Modell LTX-2 vor. Es generiert nicht nur hochauflösende Clips, sondern liefert den passenden Ton gleich mit – und das als Open Source. Effizienz auf Heim-Grafikkarten Lightricks betont die Effizienz von LTX-2. Das Modell soll auf handelsüblichen Consumer-Grafikkarten laufen können. Damit zielt das Unternehmen direkt auf professionelle Kreative und Filmemacher, die nicht auf teure Rechenzentren angewiesen sein wollen. Ich persönlich vermute dahinter aber maximal die 5090 mit 32GB VRAM. Die Entwickler geben an, die Kosten im Vergleich zu Konkurrenzmodellen halbiert zu haben. LTX-2 erstellt Videos mit einer nativen 4K-Auflösung und bis zu 50 Bildern pro Sekunde. Die Clips können aktuell eine Länge von bis zu zehn Sekunden erreichen.

Ein Modell für Video und Ton Die größte Besonderheit ist der multimodale Ansatz. LTX-2 generiert Video und Audio in einem einzigen, synchronisierten Prozess. Nutzer müssen also nicht mehr getrennte Werkzeuge für Bild und Ton verwenden. Lightricks kündigte an, dass LTX-2 vollständig Open Source sein wird. Das Unternehmen will damit Transparenz und eine breite Adaption in der Entwickler-Community fördern. Angriff auf die Großen Das Modell positioniert sich als ernstzunehmende Alternative zu den geschlossenen Systemen der Tech-Giganten. Konkret genannt werden OpenAIs Sora 2 und Googles Veo 3.1. Mit der Veröffentlichung von LTX-2 verschärft sich der Wettbewerb im Markt für KI-Videogenerierung deutlich. Der Fokus auf 4K, Effizienz und Open Source könnte den Druck auf die etablierten Konzerne erhöhen, ihre eigenen Modelle zugänglicher zu machen.
Das KI-Gedächtnis ist da: DeepSeek löst Kontext-Problem

Nano Banana

Kurzfassung
▾

Quellen
▾

Das chinesische Unternehmen DeepSeek hat DeepSeek-OCR als Open-Source-Modell veröffentlicht. Die Technologie komprimiert Textbilder um das Zehnfache, während 97 Prozent der Informationen erhalten bleiben. Dies könnte das Problem begrenzter Kontextfenster bei Sprachmodellen lösen, indem es als externes KI-Gedächtnis dient. Das Modell übertrifft bestehende OCR-Lösungen in der Effizienz deutlich und steht Entwicklern frei zur Verfügung.

DeepSeek AI – GitHub Repository DeepSeek AI – Hugging Face DeepSeek AI – Technical Paper THE DECODER (deutsch) THE DECODER (englisch)

Das chinesische KI-Unternehmen DeepSeek hat ein neues Modell veröffentlicht. DeepSeek-OCR komprimiert Textdokumente in Bildform extrem effizient. Diese Technologie könnte das große Problem langer Kontexte bei Sprachmodellen lösen und das KI-Gedächtnis massiv erweitern. Zehnfache Kompression bei 97 Prozent Genauigkeit Das neue Modell von DeepSeek konzentriert sich auf die optische Zeichenerkennung (OCR). Es wandelt Bilder von Textdokumenten in ein hocheffizientes Format um. Die am Wochenende veröffentlichten technischen Details sorgen in der Fachwelt für Aufsehen. DeepSeek-OCR erreicht eine Kompressionsrate von bis zu zehn zu eins. Ein Dokument kann also auf ein Zehntel seiner ursprünglichen Bildgröße reduziert werden. Der entscheidende Punkt ist der geringe Informationsverlust. Laut dem Forschungspapier bleiben dabei 97 Prozent der relevanten Informationen erhalten. Diese Genauigkeit ist für die praktische Anwendung essenziell. Mit dieser Leistung stellt das Modell etablierte Konkurrenten klar in den Schatten. Spezialisierte Systeme wie GOT-OCR 2.0 oder MinerU 2.0 werden bei der reinen Effizienz deutlich übertroffen. + Quelle:Deepseek Ein externer Speicher für Sprachmodelle Die Innovation von DeepSeek zielt auf eine Kernschwäche aktueller KI ab: das begrenzte Kontextfenster. Große Sprachmodelle (LLMs) können nur eine bestimmte Menge an Text, oft Tokens genannt, gleichzeitig verarbeiten. Ist dieses Fenster voll, „vergessen“ sie ältere Informationen aus Gesprächen oder Dokumenten. Hier bietet DeepSeek-OCR einen cleveren Lösungsansatz. Statt rohen Text zu speichern, könnte eine KI ältere Teile eines Gesprächs oder frühere Seiten eines Dokuments als komprimiertes Bild ablegen. Diese Bilder dienen als externes Gedächtnis, das bei Bedarf abgerufen wird. Benötigt das Modell diese Informationen später wieder, ruft es das kompakte Bild ab und liest die Daten erneut ein. Das aktive Kontextfenster wird dadurch nicht permanent blockiert, was die Verarbeitungsfähigkeit von Langzeitinformationen revolutionieren könnte. Open Source für schnelle Verbreitung DeepSeek stellt das neue OCR-Modell als Open Source auf Plattformen wie GitHub und Hugging Face bereit. Dieser Schritt ist strategisch wichtig. Entwickler und Unternehmen müssen nicht auf teure, geschlossene Systeme zurückgreifen. Sie können die Technologie direkt implementieren und anpassen. Die Anwendungsmöglichkeiten sind vielfältig. Sie reichen von verbesserten Chatbots, die sich an wochenlange Gespräche erinnern, bis zur Verarbeitung riesiger digitaler Archive. Ganze Bibliotheken oder wissenschaftliche Datenbanken könnten so für KIs effizient durchsuchbar gemacht werden. Die Technologie senkt potenziell die hohen Betriebskosten für die Datenhaltung in KI-Systemen.
Anthropics Antwort auf den KI-Kostenwahnsinn

Anthropic

Kurzfassung
▾

Quellen
▾

Anthropic hat Claude Haiku 4.5 veröffentlicht, ein kompaktes KI-Modell mit der Leistung von Top-Modellen wie Claude Sonnet 4. Es ist deutlich schneller und kosteneffizienter, was es ideal für Echtzeitanwendungen und komplexe Multi-Agenten-Systeme macht. Eine neue „Extended Thinking“-Funktion ermöglicht tiefere Analysen bei schwierigen Aufgaben und erhöht die Transparenz. Das Modell ist ab sofort kostenlos im Claude-Ökosystem sowie über API, Amazon Bedrock und Google Vertex AI verfügbar.

Anthropic Anthropic on X Amazon Web Services CNBC Mashable

Anthropic fordert die Branchenriesen heraus. Mit Claude Haiku 4.5 hat das Unternehmen am 15. Oktober ein neues, kompaktes KI-Modell vorgestellt. Es verspricht die Leistung großer Modelle wie Claude Sonnet 4 oder GPT-5, aber zu deutlich geringeren Kosten und mit höherer Geschwindigkeit. Effizienz schlägt Größe Das neue Modell zielt darauf ab, Spitzenleistung für ein breites Anwenderspektrum zugänglich zu machen. Anthropic betont, dass Haiku 4.5 bei Programmieraufgaben mit den bisherigen Top-Modellen mithalten kann. Der entscheidende Vorteil liegt jedoch in der Effizienz. Das Modell arbeitet mehr als doppelt so schnell und kostet nur ein Drittel im Vergleich zu seinem größeren Vorgänger Sonnet 4. Diese Kombination aus Geschwindigkeit und geringen Kosten macht Haiku 4.5 besonders für Echtzeitanwendungen interessant. Dazu zählen interaktive Kundendienst-Agenten oder komplexe Simulationen. Anthropic positioniert das Modell zudem als ideale Lösung für sogenannte Mehragentensysteme. In solchen Systemen arbeiten mehrere KI-Instanzen parallel an der Lösung einer Aufgabe. + Quelle: Anthropic Neue Funktionen und breite Verfügbarkeit Eine wesentliche Neuerung ist die „Extended Thinking“ Funktion. Sie erlaubt dem Modell, bei komplexen Problemen tiefere Denkprozesse durchzuführen und diese transparent darzustellen. Das verbessert die Nachvollziehbarkeit und Kontrolle für Entwickler. Diese Fähigkeit war bisher den größeren und teureren Modellen vorbehalten. Anwender können diese Funktion optional nutzen, um anspruchsvollere Aufgaben zu bewältigen. Anthropic stellt Claude Haiku 4.5 ab sofort allen Nutzern kostenlos im eigenen Ökosystem zur Verfügung. Entwickler können zudem über die offizielle API sowie über Plattformen wie Amazon Bedrock und Google Vertex AI auf das Modell zugreifen. Diese breite Verfügbarkeit unterstreicht den Anspruch, eine kostengünstige und leistungsstarke Alternative im globalen KI-Wettbewerb zu etablieren. Das Unternehmen will damit beweisen, dass hohe Leistung nicht zwangsläufig mit hohen Kosten verbunden sein muss.
Microsofts erster KI-Bildgenerator ist 1. Liga

Nano Banana

Kurzfassung
▾

Quellen
▾

Microsoft hat mit MAI-Image-1 einen eigenen KI-Bildgenerator vorgestellt, der direkt in den Top 10 der LMArena-Rangliste debütierte.
Das Modell ist auf Fotorealismus, hohe Geschwindigkeit und die Vermeidung generischer Stile ausgelegt, um kreative Prozesse zu beschleunigen.
Die Entwicklung ist ein strategischer Schritt zur technologischen Unabhängigkeit von Partnern wie OpenAI und ein direkter Angriff auf Konkurrenten.
MAI-Image-1 soll in Kürze in Microsoft-Produkte wie Copilot und den Bing Image Creator integriert werden.

Microsoft AI
News9Live
Marktechpost
Heise
Mashable

Microsoft betritt die Arena der KI-Bildgeneratoren mit einer Eigenentwicklung. Das neue Modell MAI-Image-1 platziert sich aus dem Stand in den Top 10 der offenen Vergleichsplattform LMArena. Damit fordert der Konzern die etablierte Konkurrenz von Google und dem Partner OpenAI direkt heraus. Fokus auf Tempo und Fotorealismus Microsoft entwickelte MAI-Image-1 mit drei klaren Zielen. Das System soll fotorealistische Bildqualität liefern und wiederholbare Einheitsstile vermeiden. Gleichzeitig legt der Konzern Wert auf eine hohe Reaktionsgeschwindigkeit für schnelle, iterative Arbeitsabläufe. Dies gelang durch eine strenge Auswahl der Trainingsdaten und systematisches Feedback aus der Kreativbranche. Das Modell zeigt besondere Stärken bei der Erstellung von Landschaften. Es erzeugt zudem physikalisch plausible Beleuchtungsszenarien mit Streulicht, Reflexionen und komplexen Schatten. Laut Microsoft arbeitet MAI-Image-1 dabei mit einer geringeren Latenz als viele größere und langsamere Konkurrenzmodelle. Quelle: Microsoft – Bilder mit MAI-Image Ein Debüt in der Spitzenklasse Der Einstieg in die Top 10 der LMArena-Rangliste positioniert Microsofts Modell direkt in der Spitzengruppe. Die Liste bewertet KI-Modelle durch anonymisierte Nutzerabstimmungen. MAI-Image-1 muss sich dort gegen starke Konkurrenten beweisen. An der Spitze stehen aktuell Systeme wie Hunyuan-image-3.0 des chinesischen Konzerns Hunyuan und Googles Gemini-Modell, bekannt als „Nano Banana“. Auch der bisherige Partner OpenAI ist mit GPT-Image-1 stark vertreten. Dieses Modell erzeugte zuletzt durch seine Fähigkeit, präzise Kunststile zu treffen, große Aufmerksamkeit. LMArena bietet eine gute Umgebung, um die Leistung der verschiedenen Generatoren bei identischen Aufgabenstellungen direkt zu vergleichen. + Quelle: LLMArena – 14.10.25 Strategischer Schritt zur Unabhängigkeit Die Entwicklung von MAI-Image-1 ist Teil einer breiteren Strategie. Microsoft baut sein Portfolio an hauseigenen KI-Modellen konsequent aus. Dazu gehören auch der Sprachgenerator MAI-Voice-1 und die Reihe der kleineren Phi-Sprachmodelle. Der Konzern will sich damit unabhängiger von externen Partnern machen. Diese Entwicklung markiert eine zunehmende Emanzipation von OpenAI. Bisher nutzte Microsoft für seine Produkte vor allem dessen DALL-E-Technologie. Nun verfolgt das Unternehmen einen eigenen Weg, um Qualität und Geschwindigkeit in Produkten wie Copilot und dem Bing Image Creator selbst zu kontrollieren. Die Integration von MAI-Image-1 soll laut Microsoft sehr bald erfolgen.
Tencents Hunyuan 3.0 ist die neue Nummer 1

Tencents Hunyuan 3.0 ist die neue Nummer 1 Das frei zugängliche Modell setzt neue Maßstäbe in der KI-Bilderstellung und verweist die teure Konkurrenz auf die Plätze. Kurzfassung | Andreas Becker, 08.10.25
Tencent | All-AI.de Ein Paukenschlag für die Open-Source-Bewegung erschüttert die KI-Welt. Das chinesische Unternehmen Tencent hat mit seinem Bildgenerator Hunyuan Image 3.0 die Führung übernommen. Das frei verfügbare Modell verdrängte Googles Konkurrenzprodukt von Platz eins der wichtigen LMArena-Bestenliste. Dieser Sieg markiert einen potenziellen Wendepunkt im Wettbewerb mit den geschlossenen Systemen der Tech-Giganten. Googles überraschende Niederlage Der Erfolg von Hunyuan Image 3.0 ist ein historisches Ereignis. Erstmals seit langer Zeit führt wieder ein Open-Source-Modell das unabhängige Ranking der LMArena an. Diese Plattform, betrieben von Forschern der University of California, Berkeley, ermittelt die besten Modelle durch anonyme Abstimmungen von Nutzern. Tencents KI setzte sich dabei gegen Googles hochgelobtes Modell „Nano Banana“ durch. Die Rangliste gilt in der Szene als fairer Leistungsvergleich. Nutzer bewerten dabei die Ergebnisse zweier anonymer KIs, ohne zu wissen, welches Modell welches Bild erzeugt hat. Der erste Platz für Hunyuan Image 3.0 belegt eindrucksvoll die Konkurrenzfähigkeit quelloffener Alternativen. + Quelle: LLMArena Die Technik hinter dem Erfolg Die Überlegenheit des Modells ist kein Zufall. Tencent baute mit 80 Milliarden Parametern das größte bisher veröffentlichte Open-Source-Modell zur Bilderzeugung. Eine innovative Architektur, bekannt als Mixture-of-Experts (MoE), sorgt dabei für extreme Effizienz. Das System aktiviert pro Anfrage nur einen Bruchteil seiner Parameter, ähnlich wie ein Gehirn nur die relevanten Neuronen für eine Aufgabe nutzt. Diese technische Raffinesse unterscheidet Hunyuan Image 3.0 von vielen Konkurrenten. Das Modell basiert auf einer einheitlichen multimodalen Architektur. Es verarbeitet Text und Bildinformationen in einem integrierten Prozess und erzeugt dadurch besonders kontextbezogene und hochwertige visuelle Ergebnisse. + Quelle: Tencent Intelligenz und Zugänglichkeit Eine besondere Stärke der KI liegt in ihrer intelligenten Interpretation von Befehlen. Hunyuan Image 3.0 kann vage Anweisungen selbstständig mit passenden Details anreichern. Diese Fähigkeit zur automatischen Verbesserung von Prompts basiert auf einer gewaltigen Trainingsdatenbank. Tencent nutzte dafür fünf Milliarden Bild-Text-Paare und sechs Billionen Text-Token. Trotz der enormen Leistung stellt Tencent das Modell der Community vollständig zur Verfügung. Der Code und die trainierten Modellgewichte sind frei über Plattformen wie GitHub und Hugging Face zugänglich. Damit demokratisiert das Unternehmen den Zugang zu Spitzentechnologie und fordert die etablierten Anbieter heraus. Quelle: Tencent MITMACHEN Hat Dir der Beitrag gefallen oder geholfen? Dann hilf uns mit einem Klick weiter – dauert nur Sekunden. Teile diesen Beitrag Folge uns auf Social Media Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt KI-Tools sind teuer – unser Wissen bleibt kostenlos. Spende einmalig via PayPal oder werde YouTube-Mitglied (ab 0,99 €). Dafür liefern wir täglich News, ehrliche Tests und praxisnahe Anleitungen. Danke dir! PayPal – Spende Youtube – ABO KURZFASSUNG
Tencents Open-Source-Modell Hunyuan Image 3.0 hat Platz 1 der LMArena-Bestenliste für Text-zu-Bild-Generierung erreicht.
Es übertrifft damit das bisher führende Modell „Nano Banana“ von Google, was einen wichtigen Sieg für die Open-Source-Community darstellt.
Die Leistung basiert auf seiner enormen Größe von 80 Milliarden Parametern und einer effizienten Mixture-of-Experts-Architektur.
Das Modell ist mitsamt Code und Gewichten frei verfügbar, was den Zugang zu KI-Spitzentechnologie demokratisiert.
QUELLEN
Tencent Hunyuan GitHub
Tech360.tv
OpenSourceForU
South China Morning Post
Neues Google Model: Gemini 2.5 Computer Use

Neues Google Model: Gemini 2.5 Computer Use Das neue Gemini-Modell kann Computer steuern und setzt mit überlegener Leistung und Geschwindigkeit neue Maßstäbe im KI-Markt. Kurzfassung | Andreas Becker, 07.10.25
gpt-image-1 | All-AI.de Was wäre, wenn eine KI nicht nur antwortet, sondern selbstständig den Computer bedient? Google DeepMind hat diese Vision zur Realität gemacht. Mit dem neuen Modell „Gemini 2.5 Computer Use“ können KI-Agenten wie ein Mensch mit Benutzeroberflächen interagieren. Sie klicken, tippen und scrollen sich durch Webseiten und Apps, um komplexe Aufgaben autonom zu erledigen. Wie die KI den Computer steuert Die neue Technologie markiert einen Wendepunkt in der Automatisierung digitaler Prozesse. Das System agiert in einer Schleife aus Wahrnehmung und Handlung. Ein Entwickler gibt eine Aufgabe vor, woraufhin das Modell einen Screenshot der aktuellen Bildschirmanzeige analysiert und eine passende Aktion wie einen Mausklick oder eine Texteingabe vorschlägt. Nach der Ausführung wird ein neuer Screenshot erstellt und der Zyklus beginnt von vorn. Diese Methode erlaubt es der KI, Formulare auszufüllen, durch Menüs zu navigieren oder Daten zu filtern. Die Fähigkeiten gehen über simple Klicks hinaus und umfassen auch das Ziehen und Ablegen von Elementen, die Nutzung von Tastenkombinationen und das eigenständige Surfen im Web. Google optimiert das Modell primär für Browser, doch erste Tests auf mobilen Geräten zeigen ebenfalls vielversprechende Resultate.

Leistungsdaten und Konkurrenzdruck Google positioniert sein neues Modell an der Spitze des Wettbewerbs. Laut interner Benchmarks übertrifft Gemini 2.5 Computer Use führende Alternativen von Konkurrenten wie Anthropic oder OpenAI. Das Modell kombiniert hohe Genauigkeit bei der Steuerung von Oberflächen mit geringer Latenz, was schnelle Reaktionszeiten für den Nutzer bedeutet. Diese Effizienz macht es für den praktischen Einsatz in Unternehmen besonders attraktiv. Die Konkurrenz schläft jedoch nicht. Der Markt für KI-Agenten entwickelt sich rasant, und auch andere Schwergewichte forschen an ähnlichen Technologien. Der Wettlauf um die Vorherrschaft bei autonomen KI-Systemen, die direkt mit Software interagieren, hat begonnen. + Quelle: Google Sicherheit als oberste Priorität Autonome KI-Agenten bergen neue Sicherheitsrisiken. Google begegnet diesen Herausforderungen mit einem mehrstufigen Sicherheitskonzept. Bereits während des Trainings wurden dem Modell Schutzmechanismen einprogrammiert, um Missbrauch zu verhindern. So soll der Agent beispielsweise das Umgehen von CAPTCHAs oder die Steuerung kritischer Systeme wie medizinischer Geräte verweigern. Entwickler erhalten zudem zusätzliche Kontrollinstrumente. Ein externes Sicherheitssystem prüft jeden Handlungsvorschlag der KI, bevor dieser ausgeführt wird. Zudem lassen sich spezifische Anweisungen definieren, die riskante Aktionen von vornherein unterbinden oder eine menschliche Bestätigung erfordern. Der Zugang zu sensiblen Daten oder die Ausführung unbeabsichtigter Aktionen gelten als zentrale Risikofaktoren, die eine strenge Überwachung erfordern. + Quelle: Google Der Markt für KI-Agenten explodiert Die Veröffentlichung von Gemini 2.5 Computer Use fällt in eine Zeit enormen Wachstums. Analysten von Gartner prognostizieren, dass bis 2026 bereits 40 Prozent aller Unternehmensanwendungen über spezialisierte KI-Agenten verfügen werden. Das entspricht einer massiven Steigerung im Vergleich zu heute. Google selbst nutzt die Technologie bereits intern, um Softwaretests zu beschleunigen und agentenbasierte Funktionen in die Google Suche zu integrieren. Frühe Testkunden berichten von Effizienzsteigerungen von bis zu 50 Prozent bei der Automatisierung von Arbeitsabläufen. Das Modell steht Entwicklern ab sofort über die Gemini API zur Verfügung. MITMACHEN Hat Dir der Beitrag gefallen oder geholfen? Dann hilf uns mit einem Klick weiter – dauert nur Sekunden. Teile diesen Beitrag Folge uns auf Social Media Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt KI-Tools sind teuer – unser Wissen bleibt kostenlos. Spende einmalig via PayPal oder werde YouTube-Mitglied (ab 0,99 €). Dafür liefern wir täglich News, ehrliche Tests und praxisnahe Anleitungen. Danke dir! PayPal – Spende Youtube – ABO KURZFASSUNG
Google DeepMind hat mit Gemini 2.5 Computer Use ein KI-Modell veröffentlicht, das autonomen Agenten die Steuerung von Benutzeroberflächen ermöglicht.
Die KI kann wie ein Mensch klicken, tippen und scrollen, um komplexe Aufgaben in Browsern und Anwendungen selbstständig auszuführen.
Das Modell übertrifft laut Google die Konkurrenz in Leistung und Geschwindigkeit und verfügt über integrierte Sicherheitsmechanismen zur Risikominimierung.
Die Technologie ist bereits im Einsatz und treibt einen rasant wac-hsenden Markt für KI-Agenten an, der die Software-Automatisierung revolutionieren wird.
QUELLEN
Google DeepMind Blog
9to5Google
TechCrunch
The Register
Business Wire Deutschland
Altman packt aus: Die Wahrheit über GPT-5

Altman packt aus: Die Wahrheit über GPT-5 OpenAI-Chef Sam Altman enthüllt, warum die Kritiker falsch liegen und was das neue KI-Modell wirklich kann. Kurzfassung | Andreas Becker, 05.10.25
gpt-image-1 | All-AI.de EINLEITUNG Die Erwartungen waren riesig, die Resonanz verhalten. Nach dem Start von GPT-5 machte sich in der Tech-Welt eine leise Enttäuschung breit. OpenAI-Chef Sam Altman kontert nun die Kritik. GPT-5 sei kein gescheitertes Update, sondern ein missverstandener strategischer Schritt. Das Modell verfolge gezielt andere Stärken als seine Vorgänger und sei nur der Anfang einer neuen Entwicklungslinie. NEWS Falsche Erwartungen Altman führt die gedämpfte öffentliche Wahrnehmung auf zwei Hauptgründe zurück. Zum einen habe OpenAI zwischen GPT-4 und GPT-5 zahlreiche kleinere Verbesserungen veröffentlicht. Diese kontinuierlichen Updates ließen den finalen Sprung zum neuen Modell subjektiv kleiner erscheinen als er technisch tatsächlich war. Zweitens liegen die Stärken von GPT-5 in hoch spezialisierten Bereichen. Das Modell zeigt seine Überlegenheit vor allem bei komplexen wissenschaftlichen Problemen und in der Programmierung. Diese Fortschritte sind für Experten messbar, aber im alltäglichen Gebrauch für die breite Masse kaum sichtbar. Klasse statt Masse beim Training OpenAI bricht zudem mit der einfachen Formel, dass Fortschritt allein durch mehr Daten und Rechenleistung entsteht. Der Fokus bei GPT-5 verlagerte sich stärker auf die Qualität des Trainings. Das Unternehmen setzt verstärkt auf verstärkendes Lernen durch das Feedback menschlicher Experten. Zusätzlich generiert das Modell zunehmend eigenes, hochwertiges Trainingsmaterial. Diese Methode verfeinert und beschleunigt die Lernprozesse. Rohe Skalierung bleibt wichtig, wird aber gezielter eingesetzt und erfordert massive Investitionen in neue Infrastruktur wie Rechenzentren. Der Weg zur Superintelligenz Auch das große Ziel der künstlichen allgemeinen Intelligenz (AGI) rahmt OpenAI neu. Altman beschreibt AGI weniger als einen festen Endpunkt, sondern als einen fortlaufenden Prozess. Die Entwicklung werde über Jahre stetig die Wirtschaft und Gesellschaft beeinflussen. Als entscheidendes Kriterium für den Fortschritt sieht Altman nicht mehr nur die Erledigung wirtschaftlich relevanter Aufgaben. Stattdessen rückt die Fähigkeit in den Vordergrund, echten wissenschaftlichen Fortschritt zu ermöglichen. Diese Leistung sei zwar schwerer zu messen, aber potenziell weltverändernd. Nächster Halt: GPT-6 Altman räumt ein, dass GPT-5 noch kein vollwertiger wissenschaftlicher Partner ist. Er spricht von einem „ersten Funkeln“ in diese Richtung. Die wahren Durchbrüche in der Forschung erwarte er erst mit den Nachfolgern GPT-6 und GPT-7. Um diese ambitionierte und kostspielige Forschung zu finanzieren, treibt OpenAI gleichzeitig kommerzielle Produkte voran. Die neue Video-App Sora 2 soll eine breite Nutzerbasis anziehen und Einnahmen generieren. Dieses Geld fließt direkt in den Kauf von GPUs und den Ausbau der nötigen Rechenzentren. MITMACHEN Hat Dir der Beitrag gefallen oder geholfen? Dann hilf uns mit einem Klick weiter – dauert nur Sekunden. Teile diesen Beitrag Folge uns auf Social Media Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt KI-Tools sind teuer – unser Wissen bleibt kostenlos. Spende einmalig via PayPal oder werde YouTube-Mitglied (ab 0,99 €). Dafür liefern wir täglich News, ehrliche Tests und praxisnahe Anleitungen. Danke dir! PayPal – Spende Youtube – ABO KURZFASSUNG Sam Altman verteidigt GPT‑5 in einem WIRED‑Interview als missverstanden, betont die Stärken in Forschung und Programmierung und verschiebt das AGI‑Narrativ vom fixen Ziel hin zu einem kontinuierlichen Prozess. Technisch setzt OpenAI stärker auf verstärkendes Lernen mit Experten‑Feedback und modellgenerierten Daten statt reine Roh‑Skalierung, während große Rechenzentrumsprojekte die Basis für kommende Sprünge bilden. Parallel forciert OpenAI Konsumentenprodukte wie Sora 2 und eine neue Video‑App, deren Monetarisierung laut Altman unmittelbar der GPU‑Finanzierung dient und damit die Forschungsagenda absichert. Altman kündigt an, dass GPT‑6 und GPT‑7 deutliche Fortschritte gegenüber GPT‑5 liefern werden, besonders in wissenschaftsnahen Fähigkeiten. QUELLEN WIRED: Sam Altman Says the GPT-5 Haters Got It All Wrong Techmeme: WIRED interview roundup WIRED: OpenAI Is Preparing to Launch a Social App for AI Video PCMag: Sora 2 ‘Slop’ Feed and GPU funding THE DECODER: Kritik an Sora‑App
Nano Banana Vollversion erschienen mit 11 Bildformaten

Nano Banana Vollversion erschienen mit 11 Bildformaten Beim Gemini Flash 2.5 Image Model sind jetzt 21:9, 16:9, 5:4, 4:3, 3:2, 1:1 sowie deren Umkehrungen auswählbar. Kurzfassung | Andreas Becker, 03.10.25
Nano Banana | All-AI.de EINLEITUNG Wer mit KI-Bildgeneratoren arbeitet, kannte das Problem: Man wünschte sich ein Bild im Breitbildformat und erhielt trotzdem nur ein Quadrat. Google behebt dieses Ärgernis nun mit einem wichtigen Update. Das unter dem Spitznamen „Nano Banana“ bekannt gewordene Modell Gemini 2.5 Flash Image ist jetzt für den breiten Einsatz verfügbar und bringt elf verschiedene Seitenverhältnisse mit. Damit reagiert das Unternehmen direkt auf eine der meistgenannten Forderungen seiner Nutzer und macht einen entscheidenden Schritt in Richtung professioneller Anwendung. NEWS Vom Quadrat zur Kinoleinwand Die wohl wichtigste Neuerung ist die Implementierung von elf verschiedenen Seitenverhältnissen, die Nutzern deutlich mehr kreative Freiheiten geben. Das Spektrum reicht von filmischen Formaten wie 21:9 und 16:9 über klassische Fotoformate bis hin zu Hochkant-Optionen wie 9:16, die für Social-Media-Anwendungen unerlässlich sind. Damit wird ein kritischer Fehler behoben, der zuvor trotz präziser Anweisungen oft nur quadratische Bilder mit 1024×1024 Pixeln lieferte. Diese erweiterte Vielfalt ermöglicht es Entwicklern und Kreativen, Inhalte gezielt für verschiedene Plattformen und Zwecke zu erstellen, ohne umständliche Nachbearbeitung. Ob für eine Präsentation, einen Blogartikel oder eine Instagram-Story – das gewünschte Format lässt sich nun direkt bei der Generierung festlegen. Google stellt das Modell über seine Programmierschnittstellen, das AI Studio und die Unternehmensplattform Vertex AI zur Verfügung. + Quelle: Google – Im Gemini Studio bereits auswählbar Intelligente Bildbearbeitung setzt neue Maßstäbe Neben den neuen Formaten überzeugt Gemini 2.5 Flash Image mit fortschrittlichen Bearbeitungsfunktionen. Das System kann mehrere Bilder nahtlos miteinander verschmelzen und passt dabei Beleuchtung und Texturen intelligent an. Besonders hervorzuheben ist die Fähigkeit, die Konsistenz von Charakteren über mehrere Bilder hinweg beizubehalten – ein Merkmal, das für erzählerische Projekte entscheidend ist. Änderungen lassen sich zudem durch einfache Textbefehle steuern, ohne dass unbeabsichtigte Bildbereiche verändert werden. Erste Unternehmen nutzen diese Fähigkeiten bereits. Die Firma Cartwheel etwa kombiniert das Modell mit einem 3D-Werkzeug, um Künstlern präzise Kontrolle über die Darstellung von Figuren aus jedem Kamerawinkel zu geben. Der Spieleentwickler Volley setzt die KI für die Bildgenerierung in Echtzeit während des Spiels ein und profitiert von der hohen Geschwindigkeit des Modells, das Ergebnisse in unter zehn Sekunden liefert. + Quelle: Google – jetzt als Vollversion Preisdruck und verbleibende Grenzen Im direkten Wettbewerb positioniert sich Google auch preislich attraktiv. Mit rund vier Cent pro Bild ist die Generierung etwa 40 Prozent günstiger als bei OpenAIs Konkurrenzmodell. Eine kostenlose Variante im Google AI Studio erlaubt bis zu 500 Anfragen pro Tag für Testzwecke. Trotz der Fortschritte bleiben jedoch technische Hürden bestehen. Die maximale Auflösung von 1024 Pixeln limitiert die Nutzung für hochauflösende Druckanwendungen. Zudem hat das Modell noch Schwierigkeiten mit der korrekten Darstellung kleinerer Textdetails. Alle erstellten Bilder werden mit einem digitalen Wasserzeichen versehen, um sie klar als KI-generiert zu kennzeichnen. MITMACHEN Hat Dir der Beitrag gefallen oder geholfen? Dann hilf uns mit einem Klick weiter – dauert nur Sekunden. Teile diesen Beitrag Folge uns auf Social Media Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt KI-Tools sind teuer – unser Wissen bleibt kostenlos. Spende einmalig via PayPal oder werde YouTube-Mitglied (ab 0,99 €). Dafür liefern wir täglich News, ehrliche Tests und praxisnahe Anleitungen. Danke dir! PayPal – Spende Youtube – ABO KURZFASSUNG Google hat Gemini 2.5 Flash Image für den Produktionseinsatz freigegeben und unterstützt nun zehn verschiedene Seitenverhältnisse für flexible Bildgenerierung. Das System ermöglicht fortschrittliche Bildbearbeitung mit Charakterkonsistenz, Multi-Bild-Fusion und natürlichsprachlichen Befehlen bei Latenzzeiten unter zehn Sekunden. Unternehmen wie Cartwheel und Volley nutzen bereits erfolgreich die neuen Funktionen für kreative Anwendungen und Echtzeit-Spielerlebnisse. Mit einem Preis von 0,039 US-Dollar pro Bild positioniert sich Google kostengünstiger als Konkurrenten, wobei 500 kostenlose tägliche Anfragen für Entwickler verfügbar sind. QUELLEN Testing Catalog Google Developers Blog The Decoder BundB Blog Seeking Alpha
Der neue Open-Source-König?

Der neue Open-Source-König? Mit massivem 200k-Kontextfenster und starker Performance fordert Zhipu AIs GLM-4.6 die etablierten westlichen KI-Modelle heraus. Kurzfassung | Andreas Becker, 02.10.25
gpt-image-1 | All-AI.de EINLEITUNG Der Wettkampf um die Vorherrschaft bei KI-Sprachmodellen bekommt neue Nahrung aus China. Das Unternehmen Zhipu AI hat sein neuestes Open-Source-Modell GLM-4.6 veröffentlicht und liefert beeindruckende Ergebnisse. Mit einem massiv erweiterten Kontextfenster und gesteigerter Effizienz fordert es etablierte westliche Modelle direkt heraus. In direkten Vergleichstests zeigt GLM-4.6 eine nahezu ebenbürtige Leistung zu Anthropics bekanntem Modell Claude Sonnet 4. NEWS Mehr Kontext, weniger Kosten Eine der zentralen Neuerungen von GLM-4.6 ist das auf 200.000 Token erweiterte Kontextfenster. Diese Vergrößerung gegenüber den 128.000 Token des Vorgängers erlaubt es dem Modell, deutlich umfangreichere Informationen zu verarbeiten. Dadurch lassen sich komplexe Dokumente, vielschichtige Programmierprojekte oder lange Dialogverläufe ohne Informationsverlust bearbeiten. Gleichzeitig hat Zhipu AI die Effizienz des Modells verbessert. In praxisnahen Codierungsaufgaben verbraucht GLM-4.6 rund 15 Prozent weniger Token als sein Vorgänger GLM-4.5, um dieselben Aufgaben zu lösen. Diese Effizienzsteigerung führt nicht nur zu schnelleren Ergebnissen, sondern senkt auch die Betriebskosten für Entwickler, die das Modell in ihren Anwendungen einsetzen. + Quelle: zAI – Benchmark Starke Leistung in der Praxis Die Leistungsfähigkeit beweist das Modell in einer Reihe von Benchmarks. Besonders aufsehenerregend ist das Ergebnis im direkten Vergleich mit Claude Sonnet 4. In von Menschen bewerteten, praxisnahen Aufgaben erreichte GLM-4.6 eine Gewinnrate von 48,6 Prozent und liegt damit fast gleichauf. Gegenüber anderen Open-Source-Modellen wie DeepSeek-V3.2-Exp konnte sich die neue KI sogar in allen getesteten Kategorien durchsetzen. Zhipu AI betont, dass diese realitätsnahen Tests eine höhere Aussagekraft besitzen als reine Ranglistenplatzierungen. Zwar muss sich GLM-4.6 in spezialisierten Codierungs-Benchmarks noch der neuesten Version Claude Sonnet 4.5 geschlagen geben, die starke Allround-Leistung positioniert es jedoch als ernstzunehmende Konkurrenz. Transparenz wird dabei großgeschrieben: Alle Testabläufe und Vorlagen wurden der Community zur Überprüfung auf Plattformen wie Hugging Face zur Verfügung gestellt. Offen für Entwickler Als Open-Source-Modell steht GLM-4.6 Entwicklern breit zur Verfügung. Es kann über die offizielle API von Z.ai, über Dienste wie OpenRouter oder direkt von Plattformen wie Hugging Face und ModelScope bezogen werden. Dies ermöglicht sowohl die Anbindung über eine Programmierschnittstelle als auch den lokalen Einsatz auf eigener Hardware. Damit positioniert sich Zhipu AI nicht nur als technologischer Konkurrent, sondern auch als zugängliche Alternative für Entwickler weltweit. MITMACHEN Hat Dir der Beitrag gefallen oder geholfen? Dann hilf uns mit einem Klick weiter – dauert nur Sekunden. Teile diesen Beitrag Folge uns auf Social Media Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt KI-Tools sind teuer – unser Wissen bleibt kostenlos. Spende einmalig via PayPal oder werde YouTube-Mitglied (ab 0,99 €). Dafür liefern wir täglich News, ehrliche Tests und praxisnahe Anleitungen. Danke dir! PayPal – Spende Youtube – ABO KURZFASSUNG Zhipu AI hat mit GLM-4.6 ein Open-Source-Modell vorgestellt, das ein 200.000-Token-Kontextfenster und optimierte Effizienz bietet. In acht Benchmarks übertrifft GLM-4.6 Vorgängerversionen wie GLM-4.5 und Modelle wie DeepSeek-V3.2-Exp, erzielt aber nur knapp hinter Claude Sonnet 4.5 Plätze. Das Modell erreicht in praxisnahen Tests eine 48,6%ige Gewinnrate gegen Claude Sonnet 4 und spart bis zu 15% Token im Vergleich zu GLM-4.5. GLM-4.6 ist über Z.ai, OpenRouter, Hugging Face und ModelScope frei verfügbar und richtet sich besonders an Entwickler mit hohem Anfragevolumen. QUELLEN Marktechpost: Zhipu AI Releases GLM-4.6 The Decoder: Zhipu AI GLM-4.6 schlägt Deepseek und Sonnet 4 South China Morning Post: China’s Z.ai rolls out GLM-4.6 Z.ai Blog: GLM-4.6 Technical Overview KiloCode Blog: GLM-4.6 Lands in Kilo Code