Schlagwort: Models

  • World Action Models: Forscher kartieren das nächste Paradigma der Robotik-KI

    Roboterkamera scannt Tasse, Messer, Schneidebrett und Teekessel auf einer bunten Küchentheke.

    World Action Models beschreiben ein neues Forschungsparadigma, das eine Schwäche heutiger Roboter-KI adressieren soll. Die Modelle sollen passende Bewegungen zu Kamerabildern lernen und zusätzlich vorhersagen, wie sich eine Szene durch eine Handlung verändern könnte. Ein neues Übersichtspapier ordnet rund hundert Arbeiten in zwei Architekturlinien. Es zeigt einen zentralen Vorteil dieses Ansatzes: Er kann Alltagsvideos ohne Roboter-Aktionslabels für das Training nutzbar machen. Solche Daten konnte klassische Robotik-KI bislang kaum verwerten.

    Der Artikel World Action Models: Forscher kartieren das nächste Paradigma der Robotik-KI erschien zuerst auf The Decoder.

  • Mira Muratis erstes KI-Modell schlägt gesamte Konkurrenz

    Mira Murati unterhält sich mit Robotern

    GPT-Images-2.0

    Kurzfassung

    Quellen

    Thinking Machines stellt Interaction Models vor, die Audio, Video und Text nativ und simultan in 200ms-Intervallen verarbeiten.
    Das System nutzt eine duale Architektur aus einem schnellen Interaktionsmodell und einem asynchronen Hintergrundmodell für komplexes Reasoning.
    In Benchmarks erreicht das Modell TML-Interaction-Small eine Rekord-Latenz von 0,4 Sekunden und übertrifft Wettbewerber in der Interaktionsqualität.
    Die neue Technologie ermöglicht visuelle Proaktivität und zeitbewusste Reaktionen ohne den Einsatz externer Spracherkennungs-Hilfsmittel.

    Thinking Machines: Interaction Models: A Scalable Approach to Human-AI Collaboration

    Thinking Machines beendet das Zeitalter der künstlichen Sprechpausen. Mit der Vorstellung der »Interaction Models« präsentiert das neue Unternehmen von Mira Murati eine Architektur, die Audio, Video und Text simultan verarbeitet. Statt auf das Ende einer Eingabe zu warten, agiert das KI-Modell nativ in Echtzeit.

    Der Abschied vom Wartespiel Bisherige KI-Modelle funktionieren nach dem Prinzip eines Funkgeräts: Eine Seite spricht, die andere wartet passiv ab. Erst nach Abschluss der Eingabe beginnt die Verarbeitung, was einen spürbaren Stillstand in der Zusammenarbeit bedeutet. Interaction Models lösen diese starre Struktur durch kontinuierliche Datenströme auf. Während das KI-Modell Informationen wahrnimmt, antwortet es im selben Moment. Diese Dynamik ermöglicht eine menschliche Interaktionsform, bei der Unterbrechungen und Zwischenrufe zum Standard gehören. Technische Grundlage bilden sogenannte Micro-Turns von lediglich 200 Millisekunden. In diesen kurzen Intervallen verarbeitet das KI-Modell Eingangsdaten und generiert gleichzeitig eigene Token. Ein entscheidender Vorteil liegt im Verzicht auf externe Hilfssysteme für die Sprechpausenerkennung. Bei herkömmlichen Echtzeit-Anwendungen steuern oft einfache Algorithmen, wann die KI antworten darf. Hier entscheidet die Intelligenz des KI-Modells selbstständig über den richtigen Moment für einen Einwurf. + Quelle: Thinking Machines Die duale Intelligenz-Architektur Das System vertraut auf eine funktionale Teilung, um Tempo und Tiefe zu vereinen. Ein schnelles Interaction Model übernimmt die unmittelbare Kommunikation und sichert die permanente Präsenz im Dialog. Parallel dazu agiert ein Background Model für Aufgaben, die intensives Reasoning oder den Zugriff auf externe Funktionen erfordern. Sobald dieses Hintergrundmodell Resultate liefert, webt die Interaktionsschicht diese Informationen organisch in das laufende Gespräch ein. Lange Schweigephasen bei schwierigen Anfragen gehören damit der Vergangenheit an. Während das Hintergrundmodell eine komplexe Suche durchführt, bleibt das KI-Modell ansprechbar und kann Rückfragen stellen oder den Fortschritt kommentieren. Diese Architektur ermöglicht laut Thinking Machines eine Skalierbarkeit, bei der größere KI-Modelle nicht zwangsläufig langsamer in der Reaktion werden. Vielmehr verbessert sich die Qualität der Zusammenarbeit mit zunehmender Rechenleistung. Anzeige Überlegenheit im Benchmark-Vergleich In den veröffentlichten Benchmarks demonstriert das KI-Modell »TML-Interaction-Small« seine Stärken in puncto Reaktionsgeschwindigkeit. Mit einer Latenz von nur 0,40 Sekunden im FD-bench V1 unterbietet es Konkurrenten wie GPT-2.0-min mit seinen 1,18 Sekunden deutlich. Die Grafik-1 verdeutlicht, dass das KI-Modell trotz sehr hoher Interaktionsqualität eine Intelligenz beibehält, die andere Instant-Modelle übertrifft. Während GPT-2.0 xhigh zwar leicht klüger agiert, benötigt es eine vierfach höhere Latenz von 1,63 Sekunden für die Antwort. + Quelle: Thinking Machines Besondere Fortschritte zeigen sich bei der qualitativen Interaktion und Tool-Nutzung. Im FD-bench V1.5 erreicht das System 77,8 Punkte, während die anderen Modelle kaum über 50% kommen. Die Benchmark-Tabelle listet zudem eine Pass@1-Rate von 68,0 % bei kombinierten Audio- und Tool-Aufgaben auf. Diese Zahlen belegen, dass die native Integration von Multimodalität stabilere Ergebnisse liefert als herkömmliche Koppelungen verschiedener Systeme. + Quelle: Thinking Machines Völlig neue Dimensionen eröffnet das KI-Modell bei proaktiven Aufgaben, die Zeitbewusstsein oder visuelle Analyse erfordern. Im TimeSpeak-Test erreicht das KI-Modell eine Genauigkeit von 64,7 %, während GPT Realtime-2.0 bei lediglich 4,3 % stagniert. Wie auf dem Bild zu sehen ist, glänzt das System zudem bei der visuellen Analyse von Bewegungsabläufen. Mit einem Wert von 35,4 beim RepCount-A-Benchmark kann das KI-Modell Übungen präzise zählen, woran bisherige KI-Modelle fast vollständig scheiterten. + Quelle: Thinking Machines Technische Hürden und Verfügbarkeit Trotz der Fortschritte bleiben infrastrukturelle Herausforderungen bestehen. Die permanente Verarbeitung von Video- und Audiostreams lässt den Kontextspeicher schnell anwachsen, was die Verwaltung langer Sitzungen erschwert. Zudem setzt die Nutzung eine äußerst stabile und breitbandige Verbindung voraus, da Verzögerungen im Netzwerk die Echtzeit-Erfahrung beeinträchtigen. Das aktuelle KI-Modell nutzt eine Mixture-of-Experts-Struktur mit 276 Milliarden Parametern, von denen 12 Milliarden aktiv pro Token arbeiten. Thinking Machines plant, die Research Preview in den kommenden Monaten schrittweise für Fachkreise zu öffnen. Größere KI-Modelle befinden sich bereits in der Entwicklung, sind aktuell jedoch noch zu rechenintensiv für eine flüssige Ausspielung. Das Ziel bleibt eine KI, die nicht nur klüger wird, sondern sich nahtlos in den menschlichen Arbeitsfluss integriert. Damit endet die Ära des klassischen Prompting zugunsten einer echten, synchronen Zusammenarbeit zwischen Mensch und KI. Wir sind seit langem mal wieder komplett beeindruckt!

  • Runway sichert 315 Millionen Dollar für KI-Weltmodelle

    Ein einer Weltkugel wird gearbeitet

    Nano Banana

    Kurzfassung

    Quellen

    Runway hat in einer Series-E-Finanzierungsrunde 315 Millionen US-Dollar eingesammelt. Die Unternehmensbewertung steigt durch das frische Kapital auf 5,3 Milliarden US-Dollar. Der Fokus liegt auf der Entwicklung von „World Models“, die physikalische Zusammenhänge simulieren. Zu den Investoren gehören neben General Atlantic auch Nvidia, AMD und Adobe.

    Runway – New Funding to Scale World Simulation

    TechCrunch – AI video startup Runway raises $315M

    Bloomberg – AI Video Startup Runway Valued at $5.3 Billion

    Das KI-Startup Runway sichert sich in einer Series-E-Finanzierungsrunde frisches Kapital und steigert seine Bewertung auf 5,3 Milliarden US-Dollar. Der Fokus verschiebt sich dabei technologisch: Weg von reiner Videogenerierung, hin zu sogenannten „World Models“, die physikalische Zusammenhänge verstehen sollen. Am heutigen Dienstag gab Runway bekannt, dass es 315 Millionen US-Dollar (ca. 290 Millionen Euro) eingesammelt hat. Die Finanzierungsrunde wird erneut vom Private-Equity-Unternehmen General Atlantic angeführt. Mit dem frischen Kapital steigt die Bewertung des New Yorker Unternehmens auf 5,3 Milliarden US-Dollar. Zum Vergleich: Noch im April 2025 lag der Firmenwert bei einer Runde über 308 Millionen Dollar bei rund 3 Milliarden Dollar. Prominente Hardware-Partner an Bord Die Liste der Co-Investoren liest sich wie ein Verzeichnis der aktuellen Hardware- und Software-Elite. Neben General Atlantic beteiligen sich unter anderem Nvidia, AMD Ventures und Adobe Ventures. Insbesondere die Präsenz von Nvidia und AMD verdeutlicht den enormen Rechenbedarf, den Runway für seine kommenden Modelle veranschlagt. Dass Adobe erneut investiert, deutet auf eine weitere Integration der Technologie in kreative Workflows hin. Laut CEO Cristóbal Valenzuela sollen die Mittel primär dazu dienen, die nächste Generation der „World Models“ zu trainieren und die dafür nötige Infrastruktur auszubauen. Das Unternehmen plant zudem, sein Personal in den Bereichen Forschung und Engineering aufzustocken. Anzeige Vom Pixel zur Physik: Was sind „World Models“? Technisch markiert dieser Schritt eine Evolution der generativen KI. Während bisherige Text-zu-Video-Modelle (wie das im Dezember 2025 veröffentlichte Gen-4.5) darauf trainiert waren, Pixelwahrscheinlichkeiten vorherzusagen, um ästhetisch ansprechende Videos zu erzeugen, gehen „General World Models“ (GWM) einen Schritt weiter. Ein Weltmodell versucht, eine interne Repräsentation der physischen Umgebung aufzubauen. Es soll nicht nur wissen, wie eine fallende Tasse aussieht, sondern verstehen, dass sie aufgrund der Schwerkraft fällt und beim Aufprall zerspringt. Das Ziel ist eine Simulation von Kausalität und räumlichen Beziehungen. Runway hatte bereits Ende 2025 erste Versionen (GWM-Worlds und GWM-Robotics) vorgestellt. Die Relevanz dieser Technologie reicht über die Filmindustrie hinaus: Solche Simulatoren sind essenziell für das Training von Robotern oder autonomen Systemen, die in einer sicheren, virtuellen Umgebung lernen müssen, bevor sie in der Realität agieren. Teurer Wettlauf gegen Tech-Giganten Der Vorstoß in Richtung Weltmodelle ist kein Alleingang. Runway konkurriert hier direkt mit Schwergewichten wie Google DeepMind, OpenAI (Sora) und dem von Fei-Fei Li gegründeten Startup World Labs. Diese Systeme verschlingen enorme Rechenkapazitäten, was die hohen Investitionssummen erklärt. In der Praxis muss sich allerdings noch zeigen, wie robust diese Simulationen außerhalb von kontrollierten Demos funktionieren. Bisherige generative Modelle halluzinieren häufig physikalische Gesetzmäßigkeiten – Objekte verschwinden oder bewegen sich unnatürlich. Ob die neuen GWM-Ansätze diese fundamentalen Probleme lösen und verlässliche Simulationen für die Industrie liefern können, bleibt abzuwarten. Das frische Kapital erkauft Runway zumindest die Zeit und die Rechenleistung, um diesen Beweis anzutreten.

  • Darum hat hat der KI-Chef Meta verlassen

    Yann Le Cun verlässt die Lamas

    Nano Banana

    Kurzfassung

    Quellen

    Yann LeCun verlässt Meta aufgrund eines fundamentalen Konflikts über die Zukunft der KI, da er Large Language Models (LLMs) als technologische Sackgasse betrachtet. Mit seinem neuen Startup AMI Labs setzt er auf „World Models“ und die JEPA-Architektur, um KIs zu entwickeln, die physikalische Gesetze verstehen und logisch planen können. Der Schritt ermöglicht ihm Forschung ohne bürokratische Hürden und kommerziellen Druck, wobei er gezielt Top-Talente für den Standort Europa rekrutiert. AMI Labs strebt eine Bewertung von 3,5 Milliarden Dollar an und positioniert sich als direkter Gegenentwurf zu den textbasierten Modellen von OpenAI und Google.

    Le Monde: Yann Le Cun: ‚Why I’m leaving Meta to launch my own AI start-up‘

    ByteIota: World Models Race 2026: LeCun’s €500M Bet Against LLMs

    Stratégies: Laurent Solly rejoint AMI Labs

    Sifted: Yann LeCun Poaches from Meta, Google DeepMind for New Startup

    Fortune: AI Whiz Yann LeCun is Already Targeting a $3.5 Billion Valuation

    Yann LeCuns Ausstieg bei Meta ist kein gewöhnlicher Karrierewechsel, sondern das Resultat eines jahrelangen ideologischen Konflikts über die Zukunft der KI-Entwicklung. Der „Godfather of AI“ zieht die Reißleine, weil er die aktuelle Fixierung der Tech-Branche auf Sprachmodelle für einen kostspieligen Irrweg hält. Sackgasse Generative KI Der Hauptgrund für LeCuns Abgang liegt in seiner tiefen Skepsis gegenüber der Technologie, die Meta aktuell mit Milliardeninvestitionen vorantreibt. Während Mark Zuckerberg die „Llama“-Modelle als Kernprodukt des Konzerns positioniert, bezeichnet LeCun die zugrundeliegende Architektur der Large Language Models (LLMs) intern wie extern als Sackgasse. Für ihn sind diese Systeme, die lediglich das nächste Wort basierend auf Wahrscheinlichkeiten vorhersagen, nicht in der Lage, echte Intelligenz oder logisches Denken zu entwickeln. In aktuellen Interviews zur Gründung seines Startups AMI Labs wird deutlich, dass LeCun sich bei Meta zunehmend in einer technologischen Zwangsjacke befand. Zwar leitete er die Forschung, doch der kommerzielle Druck zwang den Konzern, auf den generativen KI-Hype aufzuspringen, um den Anschluss an OpenAI und Google nicht zu verlieren. LeCun hingegen wollte Ressourcen radikal umschichten – weg von Textgeneratoren, hin zu Systemen mit echtem Weltverständnis. Dieser fundamentale Strategiekonflikt ließ sich innerhalb der Konzernstrukturen nicht mehr auflösen. Anzeige Die Vision der „World Models“ LeCuns Motivation für den Neustart ist der Drang, seine theoretische Arbeit an sogenannten „World Models“ (Weltmodellen) endlich in die Praxis umzusetzen. Er ist überzeugt, dass eine KI erst dann nützlich ist, wenn sie physikalische Gesetze, Kausalitäten und die Permanenz von Objekten versteht. Aktuelle LLMs halluzinieren, weil sie keinen Bezug zur Realität haben. LeCun will mit AMI Labs eine Architektur schaffen, die plant und denkt, bevor sie antwortet. Diesen Ansatz der „Joint Embedding Predictive Architecture“ (JEPA) konnte er bei Meta nur als Forschungsprojekt betreiben, nicht aber als zentrales Produkt. Um zu beweisen, dass sein Ansatz den LLMs überlegen ist, benötigt er die volle Kontrolle über Rechenkapazitäten und Talente. Sein neues Startup dient ihm als Vehikel, um diese These ohne Rücksicht auf bestehende Produktlinien wie Instagram oder WhatsApp zu verifizieren. Forschung ohne Fesseln Ein weiterer entscheidender Faktor für den Wechsel ist die Geschwindigkeit der Umsetzung. LeCun kritisierte zuletzt häufiger die bürokratischen Hürden und Sicherheitsbedenken großer Tech-Konzerne, die innovative Sprünge verlangsamen. In einem unabhängigen Startup wie AMI Labs entfällt der Rechtfertigungsdruck gegenüber Aktionären, die kurzfristige Profite durch generative KI-Features erwarten. Zudem zieht es LeCun zurück nach Europa, um ein Gegengewicht zum Silicon Valley zu etablieren. Er nutzt sein persönliches Netzwerk, um Top-Forscher von DeepMind und Meta abzuwerben, die seine Skepsis gegenüber dem aktuellen Hype teilen. Mit einer initialen Bewertung von angepeilten 3,5 Milliarden Dollar schafft er sich die finanzielle Unabhängigkeit, um seine Vision einer „Physischen KI“ gegen den Mainstream durchzusetzen.

  • KI-generierte Modefotos bei Zara: So spart der Konzern Millionen Euro

    Modeschau mit Roboter im Zara Store

    Nano Banana

    Kurzfassung

    Quellen

    Zara stellt die Produktfotografie im Onlineshop großflächig auf digitale Klone und High-Fidelity-Renderings um. Mithilfe von Scans werden reale Models als digitale Zwillinge lizenziert, was die physische Präsenz bei Shootings überflüssig macht. Das Verfahren spart dem Konzern erhebliche Kosten für Logistik sowie Personal und beschleunigt die Veröffentlichung neuer Kollektionen. Damit etabliert sich KI-generierter Content endgültig als neuer Industriestandard im globalen Modehandel.

    heise.de – KI-Bilder statt Modefotografie

    FashionUnited.de – Nachrichten und News aus der Modebranche

    setupbots.com – AI Ad Generation for Fashion Brands Cost: The New Math

    BEF Models – A portal for all fashion models

    Zalando Corporate – Digital Twins High-Fidelity Replicas of Real Models

    Der Modekonzern Zara stellt seine Produktpräsentation massiv auf computergenerierte Bilder um und nutzt digitale Abbilder echter Models. Dieser Schritt markiert das Ende klassischer Studiofotografie im industriellen Maßstab und verändert die ökonomischen Grundlagen des weltweiten Onlinehandels grundlegend. Hochauflösende Klone im industriellen Einsatz Zara integriert nun flächendeckend digitale Klone in den Produktionsprozess seiner Onlineshops. Diese sogenannten Digitalen Zwillinge entstehen durch hochauflösende Scans realer Models, die anschließend in jeder beliebigen Pose und Kleidung computergestützt gerendert werden. Die Technologie erlaubt eine fotorealistische Darstellung, die von herkömmlichen Aufnahmen kaum noch zu unterscheiden ist. Dabei lizenziert das Unternehmen die Rechte an den digitalen Abbildern der Models über spezialisierte Agenturen wie BEF Models. Die physische Anwesenheit der Personen im Fotostudio entfällt für die tägliche Katalogarbeit fast vollständig. Die Models erhalten Vergütungen für die Nutzung ihres digitalen Ebenbildes, ohne für jedes neue Kleidungsstück selbst vor der Kamera stehen zu müssen. Anzeige Effizienzgewinne durch den Wegfall der Logistik Die Umstellung folgt einer strikten wirtschaftlichen Logik. Ein herkömmliches Fotoshooting verursacht hohe Kosten durch die Buchung von Studios, Fotografen, Stylisten und die aufwendige Logistik der Warenmuster. Generative Bildsysteme produzieren die notwendigen Bildmengen in einem Bruchteil der Zeit und zu deutlich geringeren Kosten pro Artikel. Besonders bei der schieren Menge an wöchentlichen Neuheiten sichert sich Zara so einen strategischen Wettbewerbsvorteil. Die Skalierbarkeit der Bildproduktion ist für den schnellen Zyklus der Fast-Fashion-Industrie mittlerweile zum entscheidenden Faktor geworden. Algorithmen übernehmen hierbei die Aufgabe, die Kleidung digital auf die virtuellen Körper zu drapieren, wobei Stoffeigenschaften wie Elastizität und Glanz präzise simuliert werden. Branchenweiter Standard im digitalen Modehandel Mit dieser Strategie folgt Zara dem Beispiel von Konkurrenten wie Zalando und H&M, die bereits frühzeitig in die Entwicklung von High-Fidelity-Replikaten investierten. High-Fidelity beschreibt dabei eine besonders hohe Wiedergabetreue zum Original. Während erste Versuche mit rein virtuellen Charakteren oft künstlich wirkten, garantieren die aktuellen Klone die nötige Authentizität für die Kaufentscheidung. Andere Plattformen nutzen ähnliche Verfahren, um Kleidung an unterschiedlichen Körpertypen gleichzeitig zu visualisieren. Damit sinkt potenziell die Retourenquote, da Kunden die Passform an einem Modell sehen, das ihrem eigenen Körperbau entspricht. Der Einsatz von Künstlicher Intelligenz in der Modefotografie ist somit kein Experiment mehr, sondern der neue Industriestandard im E-Commerce.