Schlagwort: System

  • Der beste ausländische Halbmarathon-Roboter kommt aus Deutschland

    Der Roboter der TUM in China

    TUM Youtube

    Kurzfassung

    Quellen

    Ein Forschungsteam der Technischen Universität München gewann beim Roboter-Halbmarathon in Peking den Preis als bestes internationales Team.
    Die Wissenschaftler nutzten für die gestellte Hardwareplattform eine eigene Software, die sie gezielt durch Reinforcement Learning trainierten.
    Trotz extremer thermischer Herausforderungen und nur acht Tagen Vorbereitungszeit absolvierte das Modell die 21 Kilometer in rund 3,5 Stunden.

    TUM: TUM-Roboter gewinnt „Best International Team Award“
    All-AI: Mensch-Roboter-Marathon

    Während ein Laufroboter aus China kürzlich menschliche Bestzeiten beim Halbmarathon unterbot, blieb eine weitere Spitzenleistung fast unbemerkt. Das Team der Technischen Universität München (TUM) gewann in Peking den »Best International Team Award« und stellt das erfolgreichste System außerhalb Chinas. Thermische Limits definieren das Renntempo Etwa die Hälfte der 124 angetretenen Maschinen erreichte beim Wettbewerb über 21 Kilometer nicht die Ziellinie. Laufroboter kämpfen bei solch langen Distanzen primär mit Hardware-Limitierungen. Hohe Geschwindigkeiten treiben den Energieverbrauch in die Höhe und überhitzen rasch die empfindlichen Antriebskomponenten. Die Münchner Forscher entschieden sich daher nach nächtlichen Testläufen für ein konstantes Tempo von zwei Metern pro Sekunde. Diese 7,2 Kilometer pro Stunde garantierten einen sicheren Betrieb der Hardwareplattform Tienkung Ultra. Das System kühlt die Motoren ausschließlich über die vorbeiströmende Luft. Im Gegensatz dazu setzt der spätere Gesamtsieger »Blitz« auf eine aufwendige Wasserkühlung. »Wie man die Hitze ableitet, das ist das Kernthema«, erklärt TUM-Forscher Simon Armleder. Eine effiziente Wärmeabfuhr verschafft individuell gefertigten Maschinen einen enormen Vorteil gegenüber rein luftgekühlten Modellen.

    Reinforcement Learning ersetzt Standard-Software Bemerkenswert ist der Ansatz der Universität auf der Softwareseite. Viele andere Forschungsgruppen nutzten den Tienkung Ultra mitsamt den vorinstallierten Steuerungsprogrammen aus dem Innovationszentrum X-Humanoid. Die Gruppe um Professor Gordon Cheng verwarf diesen bequemen Weg komplett. Die Wissenschaftler setzten stattdessen auf ihre jahrelange Erfahrung mit dem System REEM-C von PAL Robotics. Für das Rennen in Peking erstellten sie eine eigene Simulation. Darin trainierten sie die komplexen Bewegungsabläufe der fremden Hardware intensiv mittels Reinforcement Learning. Dieses speziell angepasste Modell steuerte den Roboter im Wettkampf äußerst präzise. Die Vorbereitungszeit fiel dabei extrem knapp aus. Das Team erhielt die Zusage erst zwei Wochen vor dem Startschuss und passte den gesamten Programmcode innerhalb von lediglich acht Tagen an die Maschine an. Anzeige Präzises Monitoring auf der Laufstrecke Während des eigentlichen Laufs verfolgten die Forscher das Modell dicht aus einem Golf-Cart heraus. Sie steuerten das System direkt per Fernbedienung und überwachten essenzielle Telemetriedaten auf einem Smartphone. Das Display zeigte kontinuierlich den aktuellen Batteriestand, die Motortemperaturen sowie die exakte Geschwindigkeit. Ein strenges Regelwerk sanktionierte unplanmäßige Stopps auf der Strecke. Die Münchner wählten deshalb eine äußerst konservative Strategie für die Energieversorgung. Sie tauschten die Akkus dreimal aus, obwohl eine einzige Ladung theoretisch für zehn Kilometer gereicht hätte. Nach 3 Stunden und 35 Minuten überquerte der Roboter schließlich die Ziellinie und belegte den 39. Platz in der Gesamtwertung. Mit mehr Vorlaufzeit planen die Forscher bereits detaillierte Optimierungen für zukünftige Langstreckenläufe.

  • Wie ein KI-Roboter von Sony die Tischtennis-Profis schlägt

    Tischtennisplatte mit Roboter

    Nature – Youtube

    Kurzfassung

    Quellen

    Der von Sony AI entwickelte Roboter Ace hat erstmals professionelle Tischtennisspieler unter offiziellen Wettkampfregeln geschlagen.
    Ausgestattet mit zwölf Hochgeschwindigkeitssensoren erkennt das System Ballrotationen von über 9.000 Umdrehungen pro Minute nahezu in Echtzeit.
    Die steuernden KI-Modelle wurden per Deep Reinforcement Learning trainiert und passen ihre Taktik während des Spiels autonom an.
    Nach ersten Erfolgen gegen Elite-Spieler im Jahr 2025 besiegte die Maschine im März 2026 sogar Profis aus der Weltrangliste.

    Sony AI: Ace Research Project

    Sony AI kündigt bahnbrechenden Durchbruch im Bereich künstlicher Intelligenz und Robotik an

    Outplaying elite table tennis players with an autonomous robot

    Watch Sony’s elite ping-pong robot beat top-ranked players

    Table tennis robot Ace makes history by beating top-level human players

    Sony AIs Tischtennisroboter Ace hat erstmals professionelle Spieler unter offiziellen Turnierbedingungen geschlagen. Der parallel in Nature dokumentierte Erfolg gipfelte im Frühjahr 2026 in einem Sieg gegen eine Top-25-Spielerin und belegt greifbare Fortschritte bei physischer künstlicher Intelligenz.

    Hochpräzise Wahrnehmung in Echtzeit Das visuelle Zentrum der Maschine bilden zwölf Hochgeschwindigkeitssensoren. Dabei erfassen drei eventbasierte Kameras gezielt den oft unberechenbaren Spin der Bälle, während neun weitere Objektive das Spielgerät im dreidimensionalen Raum verorten. Selbst hohe Rotationen von mehr als 9.000 Umdrehungen pro Minute registriert diese Hardwarekombination problemlos. Dank einer extrem niedrigen Wahrnehmungslatenz von lediglich 10,2 Millisekunden reagiert der achtgelenkige Roboterarm beinahe verzögerungsfrei auf plötzliche Richtungswechsel. Anstatt feste Bewegungsabläufe starr vorzugeben, trainierten die Entwicklerteams in Zürich und Tokio die zugrundeliegenden KI-Modelle über Deep Reinforcement Learning. Zunächst absolvierten die Modelle Millionen von Ballwechseln in einer virtuellen Umgebung, woraufhin die gewonnenen Verhaltensmuster in die reale Welt übertragen wurden. Durch diesen Prozess erzeugt Ace heute Rückschläge mit Geschwindigkeiten von bis zu 19,6 Metern pro Sekunde. Im laufenden Spiel passt der Roboter seine Schlaghärte sowie die Platzierung völlig autonom an die Taktik des Gegners an. Anzeige Rasante Leistungssteigerung im Wettkampf Für die anfänglichen wissenschaftlichen Analysen trat das System bereits im April 2025 gegen menschliche Athleten an. Auf einem eigens errichteten Platz in olympischer Größe reichte es damals für drei Siege gegen Elite-Spieler, echte Profis blieben jedoch noch ungeschlagen. Nach Abschluss der primären Datenerhebung verfeinerten die Ingenieure die KI-Modelle kontinuierlich weiter. Bereits Ende 2025 agierte die Maschine deutlich aggressiver direkt an der Tischkante und verarbeitete sichtbar schnellere Rallyes. Den vorläufigen Höhepunkt erreichte das Projekt schließlich im März 2026. Unter den Augen offizieller Beobachter entschied Ace drei Matches gegen Profis für sich, darunter ein dominanter Auftritt gegen Miyuu Kihara aus den Top 25 der Weltrangliste. Das System beweist damit faktisch, wie exakt moderne Sensorik und maschinelles Lernen physische Reaktionszeiten im direkten sportlichen Wettbewerb angleichen.

  • DeepL bringt gesprochene Echtzeit-Übersetzung

    Ein Bayer spricht mit einem Azteken

    Nano Banana

    Kurzfassung

    Quellen

    DeepL erweitert das eigene Angebot um eine direkte Audio-Übersetzung namens »Voice-to-Voice«.
    Die Technologie integriert sich als Add-on in Microsoft Teams sowie Zoom und übersetzt Meetings in Echtzeit.
    Zusätzlich stehen Funktionen für mobile Gespräche, Gruppenchats per QR-Code und eine API für Geschäftskunden bereit.
    Das System unterstützt zum Start über 40 Sprachen und berücksichtigt ab Mai auch individuelle Firmen-Glossare.

    DeepL: DeepL Voice: sichere Sprachübersetzung für globale Teams

    TechCrunch: DeepL, known for text translation, now wants to translate your voice

    DeepL erweitert das eigene KI-Portfolio um eine Echtzeit-Sprachübersetzung mit echter Audioausgabe. Das neue System »Voice-to-Voice« übersetzt gesprochene Sprache verzögerungsfrei für virtuelle Meetings, persönliche Gespräche und kundennahe Anwendungen. Integration in Videokonferenzen Das Modul für Meetings klinkt sich als Add-on direkt in Microsoft Teams und Zoom ein. Teilnehmer sprechen während der Videokonferenz in ihrer jeweiligen Muttersprache. Das KI-Modell verarbeitet die Tonspur und gibt sie für die anderen Zuhörer in deren gewählter Zielsprache als hörbares Audio aus. Für dieses Programm plant der Entwickler im Juni einen Early Access, eine entsprechende Warteliste existiert bereits. Eine weitere Funktion namens »Voice for Conversations« ist unabhängig davon schon jetzt plattformübergreifend für Mobilgeräte und das Web nutzbar. Anzeige Gruppenchats und Fachbegriffe Für Schulungen oder Workshops bietet das Unternehmen ab dem 30. April erweiterte Gruppenkonversationen an. Nutzer treten diesen mehrsprachigen Sitzungen unkompliziert per QR-Code über ihr Smartphone bei. Eine bekannte technische Herausforderung bei der automatisierten Übersetzung bilden Eigennamen oder Branchenbegriffe. Hierfür integriert der Anbieter ab dem 7. Mai bestehende Glossare in das System. Fachbegriffe oder Produktnamen erkennt die Software dadurch in Echtzeit präzise und schließt diese gezielt von der Übersetzung aus. Technik und Programmierschnittstelle Unter der Haube arbeitet die Architektur aktuell noch mit einer klassischen Verarbeitungskette. Das Audiosignal wird in Text umgewandelt, übersetzt und anschließend per Text-to-Speech wieder synthetisiert. Zukünftig plant das Entwicklerteam jedoch den Sprung auf ein direktes End-to-End-Modell. Geschäftskunden können die Technologie über eine Voice-to-Voice-API in eigene Workflows wie Support-Center einbinden. Das System verarbeitet über 40 Sprachen, darunter sämtliche 24 offiziellen EU-Sprachen sowie Vietnamesisch, Arabisch und Thai. Die Registrierung für die Programmierschnittstelle ist für Unternehmen ab sofort möglich.

  • Kleines Qwen-Modell schlägt großes Gemma 4

    Ein Qwen Baer

    Nano Banana

    Kurzfassung

    Quellen

    Qwen3.6-35B-A3B ist ein neues Mixture-of-Experts-Modell, das bei 35 Milliarden Gesamtparametern nur drei Milliarden Parameter aktiv nutzt.
    Trotz der Effizienz schlägt das System größere dichte Modelle beim Agentic Coding und liefert Spitzenwerte in etablierten Benchmarks.
    Das KI-Modell besitzt zudem starke multimodale Fähigkeiten, insbesondere bei der räumlichen Intelligenz.
    Entwickler können das System als Open Weights herunterladen oder direkt in Assistenten wie OpenClaw und Claude Code integrieren.

    Qwen Team – Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All

    Ein neues KI-Modell setzt derzeit Maßstäbe im Bereich des autonomen Programmierens. Mit Qwen3.6-35B-A3B steht ein System zur Verfügung, das bei komplexen Code-Aufgaben selbst wesentlich größere Konkurrenten hinter sich lässt. Die Besonderheit liegt dabei in der extremen strukturellen Effizienz. Kompakte Architektur dominiert Benchmarks Das Modell basiert auf einer Mixture-of-Experts-Architektur (MoE). Von den insgesamt 35 Milliarden Parametern aktiviert das System bei einer Anfrage lediglich drei Milliarden. Diese sparsame Arbeitsweise schont Rechnerressourcen erheblich, ohne Kompromisse bei der eigentlichen Denkleistung einzugehen. In etablierten Leistungstests übertrifft Qwen3.6-35B-A3B ältere und deutlich größere Modelle. Im anspruchsvollen »SWE-bench Verified« verzeichnet das KI-Modell einen Wert von 73,4 Punkten. Das Modell Gemma4-31B erreicht hier zum Vergleich lediglich 52,0 Punkte. Auch beim Terminal-Bench 2.0 setzt sich das neue System mit 51,5 Punkten souverän an die Spitze und lässt zudem den eigenen Vorgänger weit hinter sich. Die primären Stärken liegen im Agentic Coding. Das Modell führt nicht nur isolierte Code-Schnipsel aus, sondern plant und korrigiert Lösungswege eigenständig über mehrere Iterationen hinweg. Für solche komplexen Reasoning-Aufgaben liefert das System die Funktion »preserve_thinking«, welche den detaillierten Gedankengang über lange Chat-Verläufe hinweg aufrechterhält. + Quelle: Alibaba Visuelle Intelligenz auf hohem Niveau Neben der Verarbeitung von Text und Code verfügt das KI-Modell über weitreichende multimodale Fähigkeiten. Es analysiert Bilder sowie grafische Zusammenhänge mit hoher Präzision. In diversen Bild-Sprach-Tests operiert das System auf dem Leistungsniveau von Claude Sonnet 4.5. Die Daten offenbaren eine besondere Stärke im Bereich der räumlichen Intelligenz. Beim Benchmark RefCOCO erzielt das Modell starke 92,0 Punkte. Entwickler können somit visuelle Vorlagen oder Fehler-Screenshots direkt in den Programmier-Workflow einspeisen. Anzeige Nahtlose Integration für Entwickler Das KI-Modell wird der Community als Open Weights zur Verfügung gestellt. Der Download erfolgt über Plattformen wie Hugging Face oder ModelScope. Alternativ lässt sich das System über die Alibaba Cloud Model Studio API unter der Kennung »qwen3.6-flash« ansteuern. Für den produktiven Einsatz ist die Kompatibilität mit etablierten Coding-Assistenten bereits integriert. Das Modell lässt sich problemlos mit Tools wie OpenClaw, Qwen Code und Claude Code verknüpfen. Entwickler bedienen das System dadurch direkt aus der gewohnten Terminal-Umgebung heraus.

  • Nvidia will mit Lyra 2.0 Robotertraining in Simulationen skalieren

    Nvidia-Forscher stellen Lyra 2.0 vor, ein System, das aus einem einzelnen Foto große, zusammenhängende 3D-Umgebungen generiert. Die erzeugten Szenen lassen sich in Echtzeit erkunden und direkt in Robotersimulationen einsetzen.

    Der Artikel Nvidia will mit Lyra 2.0 Robotertraining in Simulationen skalieren erschien zuerst auf The Decoder.

  • Darum streiten sich KI-Avatare bald mit dir

    Ein Mensch mit KI Team

    Nano Banana

    Kurzfassung

    Quellen

    Ein neues KI-Projekt namens Vantage nutzt generative KI-Modelle zur präzisen Messung von Soft Skills.
    In simulierten Szenarien interagieren Nutzer mit virtuellen Avataren, die gezielt Konflikte oder Probleme erzeugen.
    Das System analysiert die komplexen menschlichen Reaktionen und bewertet Fähigkeiten wie kritisches Denken auf dem Niveau menschlicher Experten.
    Interessierte Nutzer können die englischsprachige Version des Programms ab sofort über Google Labs testen.

    Google Research: Towards developing future-ready skills with generative AI

    Google / NYU: Toward Scalable Measurement of Durable Skills (Technical Report)

    Die Bewertung von Soft Skills galt lange als kaum standardisierbar. Ein neues Projekt namens Vantage ändert das nun. Das System nutzt generative KI-Modelle, um Kompetenzen wie kritisches Denken oder Konfliktlösung durch gezielte Simulationen präzise zu messen. KI-Avatare fordern Nutzer heraus Vantage konfrontiert Testpersonen in fiktiven Umgebungen mit mehreren KI-Avataren. Ein zentrales Modell lenkt das Verhalten dieser virtuellen Gesprächspartner permanent im Hintergrund. Das Modell analysiert den Verlauf der Unterhaltung und streut systematisch Herausforderungen ein. Die Avatare verwerfen beispielsweise eine konkrete Idee oder erzeugen einen direkten inhaltlichen Konflikt. Die Testpersonen müssen daraufhin spontan reagieren und ihre Problemlösungskompetenz beweisen. Anschließend analysiert ein separates Auswertungs-Modell den gesamten Gesprächsverlauf. Alle Teilnehmer erhalten danach ein detailliertes Profil mit quantitativen Bewertungen und tiefgreifendem Feedback zu ihren gezeigten Reaktionen. + Quelle: Google Präzision auf menschlichem Expertenniveau Mehrere empirische Studien untermauern die hohe Zuverlässigkeit des Ansatzes. Ein Test mit 188 Probanden zeigte, dass das steuernde KI-Modell deutlich mehr verwertbare Reaktionen aus den Gesprächspartnern herausholt als herkömmliche, unabhängig agierende KI-Avatare. + Quelle: Google Die Auswertungen der KI erreichen dabei erstaunlicherweise das Niveau menschlicher Prüfer. Die Übereinstimmungsrate zwischen dem System und menschlichen Experten liegt bei der Beurteilung von Konfliktlösungen auf demselben Level wie die Übereinstimmung zweier menschlicher Fachleute untereinander. + Quelle: Google Eine weitere Untersuchung mit 180 Schülern konzentrierte sich auf kreative Lösungsansätze in komplexen Aufgabenstellungen. Hier erreichte das KI-Modell im direkten Vergleich zu Experten eine sehr hohe Korrelation von 0,88. Das System bewertet offene menschliche Interaktionen folglich äußerst konstant und fair. + Quelle: Google Offene Testphase ist gestartet Das System zielt darauf ab, die Entwicklung von wichtigen Alltagskompetenzen messbar und greifbar zu machen. Solche Simulationen könnten perspektivisch klassische Lehrpläne ergänzen und Lernenden ein objektives Feedback zu ihrer Teamfähigkeit liefern. Ein breiter Einsatz erfordert jedoch noch weitere Untersuchungen zur genauen Übertragbarkeit dieser Fähigkeiten in den realen Berufsalltag. Interessierte Anwender können die englischsprachige Version des Forschungsprojekts ab sofort auf Google Labs testen. Anzeige

  • HeyGen dominiert mit »Avatar V« die Benchmarks

    ein heygen 5 avatar

    Nano Banana

    Kurzfassung

    Quellen

    HeyGen veröffentlicht das neue KI-Modell Avatar V für die Erstellung digitaler Zwillinge.
    Die Software nutzt ein 15-sekündiges Video als Basis und verhindert so den typischen Identitätsverlust bei langen Laufzeiten.
    Ein technischer Bericht zeigt, dass Avatar V Konkurrenten wie Kling O3 Pro und Veo 3.1 in direkten Vergleichen deutlich schlägt.
    Das System erreicht in allen gemessenen Metriken, darunter Lippensynchronisation und Identitätswahrung, die Spitzenposition.

    HeyGen: Avatar V – The next generation of your digital self

    X: HeyGen Status Update

    X: Joshua Xu Status Update

    HeyGen veröffentlicht mit Avatar V ein völlig neues KI-Modell für digitale Zwillinge. Das System nutzt einen fortlaufenden Videokontext anstelle von Einzelfotos. In aktuellen Benchmarks deklassiert das KI-Modell namhafte Konkurrenten deutlich. Videokontext liefert stabile Identität Bisherige KI-Modelle generierten Avatare meistens auf Basis eines statischen Bildes. Avatar V wertet hingegen ein komplettes Kontextfenster aus einem simplen 15-sekündigen Webcam-Video aus. Das System erfasst so die natürliche Mimik, den Sprachrhythmus und komplexe Bewegungsmuster präzise. Ein selektiver Aufmerksamkeitsmechanismus filtert die besten Identitätssignale aus dem Material heraus. Das Modell blendet unscharfe oder schlecht beleuchtete Frames automatisch aus. So entsteht eine äußerst stabile Basis für dynamische Szenen mit wechselnden Kameraperspektiven. Diese Video-Architektur verhindert den berüchtigten »Identity Drift«. Bei älteren Systemen schwand die Ähnlichkeit zur Originalperson mit zunehmender Laufzeit. Avatar V hält die exakten Gesichtszüge auch bei Videos von über 30 Minuten Länge absolut stabil.

    Twitter Beitrag – Cookies links unten aktivieren.

    Introducing Avatar V. We’ve solved character consistency. Forever. Record yourself once for 15 seconds. From there, you can show up anywhere, in any look, and it still feels like you. Any photo becomes a video that looks, moves, and speaks like you, down to your mannerisms and… pic.twitter.com/qQsWlRoOkw — Joshua Xu (@joshua_xu_) April 8, 2026 Sieg im direkten Benchmark-Vergleich Ein aktueller technischer Bericht liefert konkrete Zahlen zur Leistungsfähigkeit des KI-Modells. Im etablierten MOS-Vergleich erreicht Avatar V den Spitzenwert von 4,98 Punkten bei der Identitätswahrung. Die phonemgenaue Lippensynchronisation sichert sich mit 4,69 Punkten ebenfalls den ersten Platz. Das System belegt in allen sechs gemessenen Kategorien die klare Spitzenposition. + Quelle: HeyGen Die technische Überlegenheit zeigt sich besonders in der direkten Gegenüberstellung mit anderen KI-Modellen. Im Duell mit Kling O3 Pro bevorzugen die Tester Avatar V in 69,6 Prozent der Fälle. Im Vergleich mit Veo 3.1 gewinnt das neue Modell sogar in 72,5 Prozent der Testläufe. Gegenüber OmniHuman 1.5 liegt die Siegquote bei beeindruckenden 85,7 Prozent. Anwender erhalten somit eine verlässliche Lösung für professionelle Videoproduktionen ohne teure Studioaufnahmen. + Quelle: HeyGen Anzeige

  • Vibe-Coding XR: Google beschleunigt die Prototypen-Entwicklung

    Verschiedene XR Anwendungen

    Google

    Kurzfassung

    Quellen

    Google Research hat mit Vibe-Coding XR einen neuen Ansatz für die schnelle Entwicklung von Extended-Reality-Anwendungen vorgestellt.
    Das System nutzt das Framework XR Blocks in Kombination mit den aktuellen Gemini-Modellen für die automatische Code-Generierung.
    In Benchmarks erreicht Gemini 3.1 Pro eine Erfolgsquote von über 95 Prozent beim ersten Versuch.
    Für besonders schnelle Ergebnisse liefert Gemini 3 Flash den passenden Code in nur knapp 17 Sekunden.

    Google Research Blog – Vibe-Coding XR

    Forschungspapier – Accelerating AI+XR Prototyping

    Google Research präsentiert mit Vibe-Coding XR einen neuen Ansatz für die zügige Entwicklung von Extended-Reality-Anwendungen. Das Framework XR Blocks greift auf aktuelle Gemini-Modelle zurück und automatisiert komplexe Programmierschritte durch gezieltes Prompting. Interaktive Welten ohne komplexe Engines Bislang scheitern viele Prototypen für räumliche Anwendungen an hohen technischen Hürden. Die Entwicklung erfordert meist den Umgang mit mächtigen Game-Engines und eine tiefe Integration von Sensordaten. Vibe-Coding XR umgeht diese Hindernisse nun systematisch. Das quelloffene Framework XR Blocks liefert die grundlegenden Bausteine, während die KI-Modelle die räumliche Logik im Hintergrund selbstständig strukturieren. Das System generiert aus simplen Textbeschreibungen vollständig interaktive, physikbasierte WebXR-Anwendungen. Entwickler testen neue Benutzeroberflächen oder 3D-Interaktionen dadurch direkt auf Android-XR-Headsets. Dies ermöglicht eine extrem schnelle Validierung von Ideen, die bei klassischen Methoden oft Tage beanspruchen würde. Auch interaktive Lernumgebungen lassen sich mit diesem Workflow zügig realisieren.

    Effizienz durch direkte Code-Generierung Die Ausarbeitung solcher Prototypen bindet regulär viele personelle Ressourcen. Vibe-Coding XR setzt genau hier an, um den manuellen Aufwand drastisch zu reduzieren. Programmierer skizzieren die gewünschten Funktionen der Anwendung lediglich in Textform. Anschließend wandelt das System diese Eingaben in lauffähigen Code um. Dieser automatisierte Prozess senkt die Einstiegshürde für räumliches Computing erheblich. Anwender fokussieren sich vollständig auf die visuelle Ausarbeitung. Die Modelle übernehmen parallel die feingranulare technische Umsetzung. Anzeige Benchmarks belegen hohe Erfolgsquoten Aktuelle Evaluierungen mit dem VCXR-60-Datensatz unterstreichen die Zuverlässigkeit dieser Methode. Für die Tests im März 2026 nutzte Google spezifische Preview-Versionen seiner Modelle. Die Auswertungen zeigen deutlich, wie stark das gewählte Reasoning die Rechenzeit am Ende beeinflusst. Besonders das Modell Gemini 3.1 Pro sticht in den Testläufen hervor. Mit der Konfiguration „High Thinking“ liefert die KI in 95,5 Prozent der Fälle fehlerfreien Code beim ersten Versuch. Die mediane Dauer liegt hier bei 86,02 Sekunden. Ein Wechsel auf „Low Thinking“ drückt die Rechenzeit auf 33,39 Sekunden. Dabei bleibt die Genauigkeit mit einer Erfolgsrate von 94,1 Prozent weiterhin auf einem beachtlichen Niveau. + Quelle: Google Alternativen für schnelle Iterationen Wenn die pure Geschwindigkeit im Fokus steht, greift das System auf Gemini 3 Flash zurück. Aktiviert man bei diesem Modell das „Low Thinking“, benötigt die Code-Generierung lediglich 17,30 Sekunden. Die Erfolgsquote sinkt bei dieser rasanten Verarbeitung leicht auf 87,4 Prozent ab. Nutzer wägen somit je nach Projektanforderung gezielt zwischen höchster Präzision und schneller Ausgabegeschwindigkeit ab. Die Verknüpfung von XR Blocks mit aktuellen Sprachmodellen strukturiert die Entwicklungsumgebung für virtuelle Räume messbar effizienter.

  • Cursor Composer 2: Leak entlarvt den wahren Ursprung

    Ein Bild zweier Logos

    Nano Banana

    Kurzfassung

    Quellen

    Das Unternehmen Cursor hat sein neues Code-Modell Composer 2 vorgestellt und dabei die technische Basis verschwiegen.
    Ein Leak der internen API offenbarte, dass das System auf dem Open-Source-Modell Kimi K2.5 von Moonshot AI basiert.
    Cursor-Gründer Aman Sanger gab den Fehler öffentlich zu und bestätigte den Ursprung der Software.
    Trotz der Intransparenz liefert das mit Reinforcement Learning optimierte Modell eine hohe Geschwindigkeit bei niedrigen Kosten.

    Cursor Community Forum – Introducing Composer 2

    Cursor auf X – Composer 2 is now available in Cursor

    Kimi_Moonshot auf X – Kimi-k2.5 provide the foundation

    Das Software-Unternehmen Cursor hat bei der Vorstellung seines neuen KI-Modells „Composer 2“ die wahre technische Basis verschwiegen. Erst nachdem ein Entwickler auf der Plattform X die interne Modell-ID lekte, räumte der Hersteller die Nutzung des chinesischen Open-Source-Modells Kimi K2.5 ein.

    Twitter Beitrag – Cookies links unten aktivieren.

    Congrats to the @cursor_ai team on the launch of Composer 2! We are proud to see Kimi-k2.5 provide the foundation. Seeing our model integrated effectively through Cursor’s continued pretraining & high-compute RL training is the open model ecosystem we love to support.…— Kimi.ai (@Kimi_Moonshot) March 20, 2026 Ein Leak entlarvt den wahren Ursprung Der Start des neuen Modells verlief für das Entwicklerteam zunächst völlig nach Plan. Cursor präsentierte Composer 2 als extrem schnelle und kostengünstige Lösung für komplexe Programmieraufgaben. Doch kurz nach der Veröffentlichung untersuchte ein aufmerksamer Nutzer die API-Schnittstelle genauer und entdeckte ein verräterisches Detail. Die Antwort des Servers lieferte nämlich nicht den erwarteten Namen der neuen Software zurück. Stattdessen offenbarte der Code die eindeutige interne Kennung „kimi-k2p5-rl-0317-s515-fast“. Dieser Fund verbreitete sich rasch im Netz. Der öffentliche Druck zwang das Unternehmen schließlich zu einer offiziellen Stellungnahme. Cursor-Gründer Aman Sanger gab das Versäumnis offen zu und versprach Besserung für zukünftige Veröffentlichungen. Anzeige Die Technik hinter dem Code-Assistenten Die technologische Grundlage von Composer 2 bildet nun erwiesenermaßen das Open-Source-Modell Kimi K2.5 des Unternehmens Moonshot AI. Etwa ein Viertel des Pretrainings stammt direkt von dieser Basis. Den verbleibenden Teil der Entwicklung übernahm Cursor selbst und passte die Architektur an eigene Bedürfnisse an. Das Team nutzte dabei intensives Fine-Tuning und Methoden wie Reinforcement Learning, um das System speziell auf lange Code-Eingaben zu trimmen. Durch diesen technischen Ansatz verarbeiten die KI-Modelle Token effizienter und liefern präzisere Ergebnisse beim Programmieren. Trotz der anfänglichen Intransparenz bleibt der technische Fortschritt für die Anwender deutlich spürbar. Sie erhalten ein sehr fähiges System, das bei den API-Kosten deutlich unter den Preisen vieler Konkurrenten liegt.

  • Qualcomm will Reasoning-KI auf Smartphones bringen

    Smartphone mit Qualcomm-Q-Logo und abstrahierten Schaltkreisen auf vierfarbigem Hintergrund symbolisiert lokale Inferenz

    Qualcomm AI Research hat ein modulares System entwickelt, das Reasoning-fähige Sprachmodelle auf Smartphones bringen soll. Dafür werden die wortreichen Denkprozesse der Modelle um den Faktor 2,4 komprimiert.

    Der Artikel Qualcomm will Reasoning-KI auf Smartphones bringen erschien zuerst auf The Decoder.