Schlagwort: System

  • Größter Hacker-Skandal auf Instagram aufgeklärt

    Instagram auf Smartphone gebrochen

    GPT-Images-2.0

    Kurzfassung

    Quellen

    Ein Programmierfehler in Metas KI-Chatbot zur Kontowiederherstellung erlaubte Hackern den Zugriff auf über 20.000 Instagram-Profile.
    Das System verschickte Links für neue Passwörter ungeprüft an fremde E-Mail-Adressen der Angreifer.
    Die Täter hatten wochenlang potenziell Zugriff auf private Nachrichten, Fotos und Profildaten.
    Meta hat das fehlerhafte KI-System offline genommen und zwingt die betroffenen Nutzer zu einem sofortigen Passwortwechsel.

    DocumentCloud: INCIDENT NOTIFICATION Attorney General Aaron Frey

    Eine Sicherheitslücke in Metas KI-Support-Chatbot ermöglichte den unbefugten Zugriff auf über 20.000 Instagram-Konten. Angreifer nutzten einen Fehler im Wiederherstellungsprozess aus, um fremde Profile fast sieben Wochen lang zu übernehmen. Meta hat das fehlerhafte KI-System inzwischen vollständig abgeschaltet. Fehlerhafter Code-Pfad umgeht Verifizierung Der KI-Chatbot mit dem Namen »High Touch Support« soll eigentlich ausgesperrten Nutzern helfen. Das System unterstützt Anwender bei der Wiederherstellung ihrer Instagram-Konten. Nutzer können über diesen Weg einen Link zum Zurücksetzen ihres Passworts anfordern. Ein Fehler in einem separaten Code-Pfad setzte jedoch einen wichtigen Sicherheitsmechanismus außer Kraft. Das System prüfte nicht mehr, ob die eingegebene E-Mail-Adresse tatsächlich zum jeweiligen Profil gehörte. Angreifer konnten dadurch beliebige E-Mail-Adressen für fremde Konten hinterlegen. Der KI-Chatbot verschickte die Reset-Links daraufhin blind an die unautorisierten Adressen. Kriminelle konnten die Passwörter anschließend problemlos ändern und die Konten übernehmen. Einzige Hürde blieb eine eventuell aktivierte Zwei-Faktor-Authentifizierung der rechtmäßigen Kontoinhaber. Anzeige Umfangreicher Datenzugriff über Wochen Die Hacking-Kampagne startete nach Metas Angaben um den 17. April 2026. Das Unternehmen entdeckte die Angriffe erst am 31. Mai 2026. In diesem Zeitraum kompromittierten die Hacker bis zu 20.225 Nutzerkonten. Die Eindringlinge hatten potenziell vollen Zugriff auf sensible Profildaten. Dazu zählen Direktnachrichten, private Fotos, Geburtsdaten und verknüpfte Dienste. Meta weiß laut der offiziellen Datenschutzmeldung an die Behörden nicht genau, welche Informationen die Angreifer tatsächlich ausgelesen haben. Sicherheitsmaßnahmen und Kontosperren Meta reagierte nach der Entdeckung umgehend auf den Vorfall. Das Unternehmen deaktivierte den betroffenen KI-Chatbot und entfernte den fehlerhaften Code-Pfad. Gleichzeitig erklärte der Konzern alle über dieses System generierten Reset-Links für ungültig. Alle potenziell betroffenen Profile befinden sich nun in einem obligatorischen Sicherheits-Checkpoint. Die Inhaber müssen sich neu authentifizieren und ihre Passwörter über sichere Kanäle zurücksetzen. Meta kündigte zudem eine weitreichende Überprüfung ähnlicher Wiederherstellungssysteme auf allen Plattformen an.

  • NotebookLM wird zum KI-Agenten durch Gemini 3.5

    Notebook LM Fähigkeiten

    GPT-Images-2.0

    Kurzfassung

    Quellen

    Google rüstet NotebookLM mit den Modellen Gemini 3.5 und Antigravity sowie autonomen Agenten-Funktionen aus.
    Das System führt in einer sicheren Cloud-Umgebung selbstständig Code aus und recherchiert eigenständig im Internet nach Quellen.
    Anwender können fertige PDF-Berichte, Excel-Tabellen oder PowerPoint-Präsentationen mit Diagrammen und Bildern direkt exportieren.
    In internen Benchmarks zeigt das System dadurch eine massive Leistungssteigerung bei komplexen Recherche- und Analyseaufgaben.

    Google Blog – Do better research with NotebookLM

    Google erweitert NotebookLM um autonome Agenten-Funktionen und integriert die KI-Modelle Gemini 3.5 sowie Antigravity. Das System führt nun eigenständig komplexen Code aus und erstellt direkt fertige Dokumente wie Präsentationen oder Tabellenkalkulationen. Cloud-Computer für tiefere Analysen Der Kern des Updates ist eine sichere Cloud-Computing-Umgebung für jedes einzelne Notizbuch. Dadurch schreibt und führt die KI-Software nun selbstständig Code aus, um hochgeladene Datensätze tiefergehend zu analysieren. Google stattet die Umgebung mit mehr als 100 kuratierten Software-Fähigkeiten aus. Nutzer laden beispielsweise rohe Verkaufsdaten hoch, und das System berechnet Finanzmetriken, filtert Fehler heraus und visualisiert die Ergebnisse anschließend als Grafik. Anzeige Autonome Informationsbeschaffung Bisher benötigte NotebookLM zwingend fertige Dokumente als Quellen. Diese Einschränkung entfällt mit der aktuellen Version. Nutzer können künftig mit vagen Ideen starten. Das KI-Modell greift auf die Google-Suche zu und recherchiert selbstständig nach relevanten Quellen im Netz. Das System sucht dabei auch gezielt nach Primärquellen in fremden Sprachen. Das System referenziert alle gefundenen Informationen weiterhin sauber im Notizbuch. Die Kontrolle über die Faktenbasis bleibt somit beim Anwender. Quelle: Google Deutliche Leistungszuwächse bei komplexen Aufgaben Die Kombination aus Gemini 3.5 und Antigravity verbessert die internen Leistungswerte deutlich. Im direkten Vergleich mit der Vorgängerversion erzielt das aktualisierte System eine durchschnittliche Erfolgsrate von über 65 Prozent. Besonders bei anspruchsvollen Aufgaben zeigen sich starke Sprünge. Die erweiterte Webrecherche schlägt das alte System in internen Benchmarks mit einer Siegrate von 78,2 Prozent. Die Analyse großer Dokumente liegt bei 69,9 Prozent. Auch die Textqualität und die mehrsprachige Unterstützung verbessern sich laut den vorliegenden Daten spürbar. + Quelle: Google Neue Exportformate und Verfügbarkeit Die aufbereiteten Daten bleiben nicht mehr nur im Chat-Fenster. NotebookLM generiert nun auf Zuruf strukturierte Dateien für den direkten Download. Dazu gehören PDF-Berichte mit Diagrammen, Excel-Tabellen, PowerPoint-Präsentationen sowie JSON- oder CSV-Dateien. Für die Generierung von Bildern nutzt Google das Modell Nano Banana. Anwender passen die generierten Dateien anschließend direkt in der Studio-Ansicht an. Google verteilt das Update ab heute weltweit über die Weboberfläche. Voraussetzung für die Nutzung ist ein Abonnement für Google AI Ultra. Geschäftskunden benötigen entsprechende Workspace-Konten mit AI Ultra Access oder AI Expanded Access. Geplant ist aber auch eine Erweiterung auf Pro-Pläne.

  • Reve 2.0 schlägt Nano Banana und überzeugt mit neuem Konzept

    Zwei Bilder mit Reve 2.0

    Reve 2.0

    Kurzfassung

    Quellen

    Reve 2.0 ist ein neues KI-Modell, das Bildbefehle nicht direkt in Pixel, sondern in strukturierte Code-Layouts übersetzt.
    Dieser Ansatz ermöglicht eine exakte Platzierung von Elementen und liefert Bilder in nativer 4K-Auflösung ohne Skalierungsverluste.
    In aktuellen Benchmarks zur Bildgenerierung belegt das System den zweiten Platz hinter OpenAI, zeigt aber bei der Bildbearbeitung noch Schwächen.

    Reve – App Plattform
    Reve Blog – The Layout Bet

    Der kalifornische Entwickler Reve veröffentlicht sein neues KI-Modell Reve 2.0 zur Bildgenerierung. Das System verarbeitet Benutzereingaben nicht direkt zu Pixeln, sondern erstellt vorab eine detaillierte Layout-Struktur. Diese codebasierte Planung ermöglicht eine exakte Kontrolle über die finale Bildgestaltung. Strukturierter Code statt vager Textbefehle Herkömmliche Diffusionsmodelle nutzen Sprachmodelle, um kurze Beschreibungen in lange Texte umzuwandeln. Das führt bei der Generierung oft zu unvorhersehbaren Abweichungen im fertigen Bild. Textbefehle bleiben stets mehrdeutig, sodass eine kleine Wortänderung rasch die gesamte Komposition zerstört. Reve 2.0 wählt einen völlig anderen Ansatz und wandelt Instruktionen zunächst in ein hierarchisches Layout um. Diese Struktur definiert vor der Bildberechnung exakt die Position, Größe und Farbe jedes einzelnen Elements. Das System trennt dabei die inhaltliche Absicht klar von der sichtbaren Oberfläche, vergleichbar mit dem HTML-Code einer Webseite. Spezielle Layout-Modelle verarbeiten diese Zwischenschicht, bevor das Programm die eigentlichen Pixel generiert. Dadurch können sowohl KI-Agenten als auch menschliche Nutzer auf denselben Code zugreifen und Bildbereiche gezielt anpassen. Wunderbar zu sehen auf folgendem Bild, wo man jede einzelnes Element und jeden Text explizit auswählen (touch) und bearbeiten kann. + Quelle: Reve Eigene Architektur für native Auflösung Eine Besonderheit des Systems ist die hohe Bildauflösung direkt bei der Erstellung. Reve 2.0 generiert alle Medien sofort in nativer 4K-Auflösung, was 16 Megapixeln entspricht. Ein nachgeschalteter, oft fehleranfälliger Vergrößerungsschritt entfällt somit komplett. Dieser direkte Weg verhindert Detailverluste, die häufig beim nachträglichen Hochskalieren von KI-Bildern entstehen. Die erzeugten Medien eignen sich dadurch ohne Umwege für professionelle Druckprozesse. Zudem behalten die Ergebnisse eine durchgehend hohe Schärfe bei feinen Strukturen. Die Ingenieure legten das Modell von Beginn an darauf aus, diese hohe Pixeldichte ohne zusätzliche Skalierungsmodelle zu bewältigen. Das beschleunigt den gesamten kreativen Prozess, da Nutzer das finale Layout sofort in der Zielauflösung beurteilen können. Anzeige Exakte Anpassungen und präzise Typografie Die codebasierte Architektur löst ein weiteres Problem aktueller Bildgeneratoren und verhindert die typische Qualitätsminderung bei schrittweisen Modifikationen eines Motivs. Während andere Modelle bei jeder neuen Bildgeneration frische Kompressionsartefakte aufbauen, greift Reve auf die fixierten Code-Elemente zurück. Einmal definierte Objekte bleiben bei Überarbeitungen visuell unangetastet. Der Verfallsprozess durch wiederkehrende Bildberechnungen sinkt auf ein Minimum. Zusätzlich verbessert die exakte Platzierung von Objekten die Darstellung von Schriften im Bildraum drastisch. Das KI-Modell setzt Text punktgenau an die vorgegebene Stelle innerhalb einer Szene. Straßenschilder, Speisekarten oder Etiketten fügen sich dadurch nahtlos in die jeweilige Umgebung ein. Visuell rückt das System ohnehin von einer stark künstlichen Ästhetik ab. Das Modell favorisiert stattdessen natürliche Lichtverhältnisse und eine fotojournalistische Bildsprache. + Quelle: Reve Harter Wettbewerb in den Benchmark-Tests In aktuellen Vergleichstests behauptet sich das Modell erfolgreich gegen die großen Branchenführer. Auf der Plattform Chatbot Arena belegt Reve 2.0 im Bereich der Text-zu-Bild-Generierung derzeit den zweiten Platz. Das System reiht sich dort mit 1280 Punkten direkt hinter OpenAIs gpt-image-2 ein. Es verdrängt damit Konkurrenten wie Nano Banana 2 auf Rang drei sowie das neue mai-image-2.5 von Microsoft auf Platz vier. Reve erzielt diese Spitzenplatzierung mit einem Bruchteil der Hardware, da das Unternehmen für das Training zwanzigmal weniger Grafikkarten nutzte als die Konkurrenz. + Quelle: Reve Im Segment der reinen Bildbearbeitung fällt das Abschneiden im Image Edit Arena Benchmark jedoch schwächer aus. Hier landet Reve 2.0 mit 1356 Punkten lediglich auf dem neunten Rang. Die oberen Plätze dominieren in dieser Kategorie weiterhin OpenAI, Microsoft und Google. + Quelle: Reve Die Kombination aus strukturiertem Layout-Code und einem darauf abgestimmten Webeditor sorgt für frischen Wind bei der Bildgenerierung.

  • Microsofts »Agent Optimizer« verbessert und repariert KI Agenten

    Microsoft KI Agenten

    GPT-Images-2.0

    Kurzfassung

    Quellen

    Microsoft hat den Agent Optimizer für die Foundry-Plattform als Public Preview veröffentlicht.
    Das System automatisiert die Fehlerbehebung bei KI-Agenten und ersetzt das manuelle Testen von Befehlen.
    Ein spezielles Diagnosemodell analysiert Protokolle, findet Fehlerursachen und schlägt funktionierende Anpassungen vor.
    Am Ende prüft ein Entwickler die generierten Vorschläge und gibt die beste Version frei.

    Microsoft Command Line: The agent optimization loop and how we built it in Foundry

    Microsoft veröffentlicht mit dem Agent Optimizer eine neue Automatisierungslösung für komplexe KI-Systeme in der Foundry-Umgebung. Die Software analysiert fehlerhafte KI-Agenten selbstständig und schlägt optimierte Systemkonfigurationen vor, ohne bestehende Funktionen zu beschädigen. Entwickler erhalten damit eine Umgebung, die klassische Testverfahren aus der traditionellen Softwareentwicklung auf künstliche Intelligenz überträgt. Das Ende der manuellen Fehlersuche Bisher glich die Anpassung von produktiven KI-Agenten einem riskanten Balanceakt nach dem Prinzip »Repariere eine Sache, mache zwei andere kaputt«. Entwickler passten Anweisungen an, um ein spezifisches Problem zu lösen, verursachten dadurch aber häufig neue Fehler in völlig anderen Teilbereichen. Die manuelle Fehlersuche anhand von Protokolldaten kostete enorm viel Zeit und skalierte bei einer wachsenden Anzahl an KI-Assistenten schlichtweg nicht mehr. Microsoft ändert diesen Ablauf nun grundlegend. Der neue Ansatz behandelt die Qualitätskontrolle nicht länger als mühsames Durchtesten, sondern als Suchproblem innerhalb eines großen Konfigurationsraums. Das System generiert automatisch verschiedene Lösungskandidaten, indem es Systemanweisungen, ausgewählte Modelle und Tool-Definitionen variiert. Anschließend werden diese Kandidaten streng gegen vorher festgelegte Qualitätsstandards bewertet und in einer Rangliste sortiert. + Quelle: Microsoft Ein Diagnosemodell steuert den Prozess Das Herzstück des Optimierers bildet der sogenannte Reflector. Dieses separate Sprachmodell übernimmt ausschließlich die Aufgabe, fehlerhafte Durchläufe zu lesen und den Grund für das Versagen des Agenten zu ermitteln. Darauf basierend schlägt das System zielgerichtete Änderungen vor, die exakt auf die identifizierten Schwachstellen abgestimmt sind. Die Ingenieure von Microsoft machten dabei eine entscheidende Entdeckung. Die Qualität dieses Diagnosemodells hat weitaus größere Auswirkungen auf das Endergebnis als das eigentlich ausführende Modell des Agenten. Ein präziser Reflector, der Fehler logisch herleiten kann, bringt mehr Leistungsgewinn als der einfache Wechsel auf ein größeres Sprachmodell wie GPT-5.5. Das System nimmt dem Menschen die Arbeit jedoch nicht komplett ab. Eine Automatisierung ohne menschliche Kontrolle würde Fehler langfristig nur vergrößern. Daher präsentiert die Software lediglich die besten Lösungswege, während ein Entwickler die Ergebnisse abschließend prüft und die neue Version für den produktiven Einsatz freigibt. + Quelle: Microsoft Integration und zukünftige Entwicklung Der Agent Optimizer ist derzeit als Public Preview im Foundry Agent Service verfügbar. Die Steuerung erfolgt direkt über die Kommandozeile mit lediglich fünf simplen Befehlen. Für Projekte, die noch keine eigenen Evaluierungsdaten besitzen, bietet das System zudem eine KI-gestützte Generierung von passenden Testdatensätzen auf Basis von Beschreibungen an. Microsoft plant bereits die nächsten Erweiterungen für das System. Künftig soll das Tool auch Einstellungen für die Informationsbeschaffung oder Wissensdatenbanken in die Optimierung einbeziehen. Zudem arbeiten die Entwickler an sicheren Bereitstellungsmethoden, bei denen eine neue Version zunächst nur einen kleinen Teil des echten Datenverkehrs verarbeitet und sich beweisen muss. Damit etabliert sich eine systematische und verlässliche Qualitätskontrolle für KI-Agenten im produktiven Einsatz. Anzeige

  • MiniMax M3: Günstiger und besser als die US-Konkurrenz?

    Minimax Agenten

    GPT-Images-2.0

    Kurzfassung

    Quellen

    MiniMax hat das neue KI-Modell M3 veröffentlicht, das besonders auf komplexe Programmieraufgaben und autonome Agenten-Funktionen spezialisiert ist.
    Eine neu entwickelte Architektur ermöglicht ein extrem großes Kontextfenster von einer Million Token bei gleichzeitig deutlich reduziertem Rechenaufwand.
    Das System verarbeitet Text, Bilder sowie Videos nativ und kann sogar eigenständig Desktop-Anwendungen bedienen.
    Entwickler können das Modell über eine API oder verschiedene Abonnement-Pläne ab 20 US-Dollar im Monat nutzen.

    MiniMax M3: Frontier Coding, 1M Context, Native Multimodality
    MiniMax M3 – Coding & Agentic Frontier, 1M Context, Multimodal
    Models – MiniMax API Docs – MiniMax
    Models – MiniMax API Docs
    M3 for AI Coding Tools – Models – MiniMax API Docs

    Das KI-Unternehmen MiniMax hat heute das neue Modell M3 veröffentlicht. Das System kombiniert umfangreiche Programmierfähigkeiten, native Multimodalität und ein Kontextfenster von einer Million Token. Das Modell konkurriert damit direkt mit den leistungsstärksten Modellen wie GPT-5.5 und Gemini 3.1 Pro. Fokus auf autonome Programmieraufgaben MiniMax M3 legt den Schwerpunkt auf die Softwareentwicklung und den Einsatz als eigenständiger Agent. Das Modell generiert nicht nur einfachen Programmcode, sondern bewältigt langfristige Projektaufgaben. Dabei orientiert sich das System stark an der realen Arbeitsweise von Programmierern. Es kann Anforderungen klären, Lösungswege diskutieren und Arbeitsaufträge während eines Projekts dynamisch anpassen. In verschiedenen Leistungstests liefert das System überdurchschnittliche Resultate. Beim Benchmark SWE-Bench Pro, der die Programmierfähigkeiten misst, erreicht MiniMax M3 einen Wert von 59,0 Prozent. Damit lässt es die Modelle GPT-5.5 und Gemini 3.1 Pro hinter sich. Einzig Opus 4.7 ist noch stärker. Beim Test Terminal-Bench 2.1 sichert sich das neue Modell mit 66,0 Prozent ebenfalls einen guten Platz. Opus 4.7 erreicht hier fast identische 66.1 Prozent, GPT-5.5 allerdings starke 78.2 Prozent. + Quelle: MiniMax Komplexe Praxistests und Optimierungen Die Entwickler haben das Modell mehreren Härtetests unterzogen. Bei der Optimierung einer CUDA-Komponente für spezielle Nvidia-Grafikkarten arbeitete das System rund 24 Stunden völlig selbstständig. Das Modell startete lediglich mit einer Aufgabenbeschreibung und ohne eine funktionierende Referenzlösung. In dieser Zeit führte das Programm 147 Leistungstests und knapp 2.000 interne Funktionsaufrufe durch. Im Gegensatz zu anderen Modellen, die solche Versuche frühzeitig abbrechen, suchte MiniMax M3 beharrlich nach neuen Lösungsansätzen. Am Ende steigerte das System die Hardware-Auslastung von ursprünglich 7,6 Prozent auf 71,3 Prozent. Das entspricht einer mehr als neunfachen Geschwindigkeitssteigerung. Auch beim Training eigener kleiner Modelle über den PostTrainBench zeigte das System seine Stärken. Das Modell steuerte den Vorgang von der Datensynthese über das Training bis hin zur Auswertung komplett autark. Das System erreichte dabei einen Wert von 0,37 Punkten und positionierte sich dicht hinter Opus 4.7 und GPT-5.5. + Quelle: MiniMax Effizienz durch veränderte Architektur Ein entscheidendes technisches Merkmal von MiniMax M3 ist die sogenannte MiniMax Sparse Attention Architektur, kurz MSA. Diese Technik stellt den reibungslosen Umgang mit dem riesigen Kontextfenster von einer Million Token sicher. Bei älteren Architekturen stieg der Rechenaufwand mit wachsender Textlänge überproportional an. MSA teilt die eingehenden Daten sehr präzise in einzelne Blöcke auf. Das System liest jeden Block nur ein einziges Mal. Dadurch sinkt der Rechenaufwand laut Angaben der Entwickler enorm. Bei voller Auslastung des Kontextfensters benötigt das Modell nur ein Zwanzigstel der Rechenleistung im Vergleich zur Vorgängerversion. Das sorgt für eine deutlich beschleunigte Verarbeitung von großen Datenmengen in der Praxis. + Quelle: MiniMax Bild, Video und Desktop-Steuerung Das System lernt von Beginn an mit gemischten Datensätzen. Diese native Multimodalität sorgt dafür, dass das Modell Bilder, Videos und Texte tiefgreifend miteinander verknüpft. Im OmniDocBench-Test, der genau diese Kombination prüft, erzielt MiniMax M3 bessere Werte als der Konkurrent Gemini 3.1 Pro. Das Modell verarbeitet zudem hochgeladene Videodateien und analysiert Grafiken in wissenschaftlichen Publikationen. Eine weitere Besonderheit ist die Fähigkeit, einen Computer-Desktop zu bedienen. Das System kann Programme öffnen, Dateien verschieben oder Excel-Tabellen auslesen. Diese visuelle Steuerung ermöglicht den unkomplizierten Einsatz als digitaler Assistent bzw. KI-Agent für herkömmliche Büroaufgaben. Das klappt übrigens ähnlich wie bei Computer Use von OpenAI jetzt auch per Smartphone.

    Top News
    OpenAIs Codex steuert Windows PCs nun eigenständig
    Die KI bedient Programme und den Mauszeiger. Nutzer kontrollieren die Aufgaben bequem per Smartphone.

    Veröffentlichung und Preisgestaltung Nutzer greifen entweder über die Chatoberfläche oder über die API auf das Modell zu. Die Kosten belaufen sich dabei auf 2,40$ pro 1M Output Token. Bei sehr großen Kontextfenstern ab 512.000 Token verdoppelt sich dieser Preis auf 4,80$. Für die ersten sieben Tage gewährt der Hersteller einen Rabatt von 50 Prozent auf das kleinere Kontextfenster. + Quelle: MiniMax Anzeige

  • Qwen VLA ist eine universelle KI für alle Roboter

    Ein Qwen Bär erklärt

    GPT-Images-2.0

    Kurzfassung

    Quellen

    Das neue KI-Modell Qwen-VLA übersetzt Sprache und Bilder direkt in physische Roboterbewegungen.
    Im Gegensatz zu bisherigen Systemen steuert diese universelle Software unterschiedlichste Robotertypen und navigiert selbstständig durch Räume.
    In Tests erzielt das Modell Bestwerte und passt sich flexibel an unbekannte Objekte sowie veränderte Umgebungen an.

    Qwen Team – Qwen-VLA: From Understanding the World to Acting in It

    Das Entwicklerteam hinter der KI Qwen hat das neue Modell Qwen-VLA vorgestellt. Das System versteht nicht nur visuelle und sprachliche Eingaben, sondern wandelt diese direkt in physische Handlungen für Roboter um. Damit überwindet die KI die reine Textausgabe. Ein Modell für sämtliche Aufgaben Bisherige Systeme in der Robotik arbeiten stark spezialisiert. Ein Programm kümmert sich um die Navigation, ein anderes steuert einen Greifarm und ein drittes ist fest an eine bestimmte Hardware gebunden. Qwen-VLA fasst diese Bereiche nun in einer universellen Architektur zusammen. Die KI verarbeitet Kamerabilder sowie gesprochene Anweisungen und berechnet daraus den nächsten Bewegungsschritt. Dadurch lässt sich dieselbe Software für unterschiedlichste Robotertypen und Aufgabenstellungen einsetzen. In aktuellen Tests erzielt das System bemerkenswerte Ergebnisse und schlägt teilweise sogar spezialisierte Programme. Bei der Benchmark-Aufgabe LIBERO verzeichnet Qwen-VLA eine Erfolgsquote von 97,9 Prozent. Auch in der simulierten Umgebung RoboTwin erreicht das Modell auf dem höchsten Schwierigkeitsgrad einen Wert von 87,2 Prozent. + Quelle: Alibaba Der Trainingsprozess in vier Stufen In der ersten Stufe lernt die Software, Textanweisungen in grundlegende Bewegungsabläufe zu übersetzen. Das System trainiert dabei ausschließlich die motorische Steuerung, komplett ohne visuelle Daten. Während der zweiten Stufe verarbeitet das KI-Modell zusätzlich Kamerabilder. Es verknüpft nun das zuvor erlernte Textverständnis mit konkreten räumlichen Umgebungen. In der dritten Stufe erfolgt ein gezieltes Feintuning. Ein Teil des Trainings optimiert allgemeine Aufgaben wie die Navigation, während ein anderer Teil das Modell mit echten Steuerungsdaten für physische Roboter anpasst. Die vierte Stufe nutzt bestärkendes Lernen in einer simulierten Umgebung. Die KI trainiert dort die fehlerfreie Ausführung kompletter Aufgaben und überträgt dieses Wissen später auf echte, völlig unbekannte Szenarien. + Quelle: Alibaba Handeln in unbekannten Situationen Besonders in realen Tests mit einem zweiarmigen ALOHA-Roboter zeigt das Modell eine hohe Anpassungsfähigkeit. Wenn die KI mit unbekannten Farben, Objekten oder veränderten Lichtverhältnissen konfrontiert wird, führt sie Befehle weiterhin zuverlässig aus. Gleichzeitig reagiert das System auf dynamische Veränderungen in der Umgebung. Fällt ein Gegenstand um oder bewegt sich das Ziel, passt Qwen-VLA den Bewegungsablauf an. Die Entwickler betonen, dass die KI keine festen Schablonen auswendig lernt, sondern das eigentliche Ziel einer Aufgabe begreift. So packt es dann je nach Wetter die Kappe oder den Regenschirm ein. + Quelle: Alibaba Anzeige

  • Google bringt autonome Abwehr gegen Hacker

    Eine Sanduhr mit Code

    GPT-Images-2.0

    Kurzfassung

    Quellen

    Google Cloud veröffentlicht eine neue Sicherheitsplattform, die Cyberangriffe eigenständig abwehren soll.
    Das System nutzt verschiedene KI-Modelle, um IT-Netzwerke auf Schwachstellen zu scannen.
    KI-Agenten wie Codemender schreiben fehlerhaften Code automatisch um und testen diesen vor der Veröffentlichung.
    Damit reagiert das Unternehmen auf Angreifer, die Sicherheitslücken durch künstliche Intelligenz in wenigen Minuten ausnutzen.

    Google Cloud Blog: Introducing Google AI Threat Defense

    Google Cloud hat die neue Sicherheitsplattform »AI Threat Defense« vorgestellt, die auf schnelle Angriffe durch KI reagiert. Das System spürt Schwachstellen nicht nur auf, sondern schreibt über KI-Agenten selbstständig passenden Code, um diese direkt zu schließen. Vier Komponenten für ein neues Sicherheitsnetz Das Konstrukt vereint Technologien aus verschiedenen Geschäftsbereichen, um eine schnelle Reaktion zu garantieren. Die Basis bildet die Cloud-Sicherheitsfirma Wiz. Diese kartiert die IT-Umgebung eines Unternehmens und simuliert, welche Lücken für Angreifer tatsächlich erreichbar sind. Eine genaue Bewertung trennt anschließend reale Risiken von rein theoretischen Fehlern. Für die tiefergehende Code-Analyse greift Google auf mehrere KI-Modelle gleichzeitig zurück, da kein einzelnes System alle Schwachstellen findet. Günstige Ausführungen übernehmen die durchgehende Überwachung des Netzwerks. Leistungsstärkere Varianten kommen gezielt bei kritischen Anwendungen zum Einsatz, um die Betriebskosten der Plattform insgesamt gering zu halten.

    Automatische Patches durch KI-Agenten Den aktiven Teil der Verteidigung übernimmt der von Deepmind entwickelte Agent Codemender. Bei einem gefundenen Fehler greift er direkt in die Entwicklungsumgebung ein und tauscht den betroffenen Code aus. Ältere Strukturen schreibt das System dabei oft direkt in moderne, speichersichere Programmiersprachen um. Vor dem finalen Ausrollen generiert die Plattform selbstständig passende Tests für die neuen Zeilen. Das automatisierte Vorgehen ersetzt bisherige Abläufe, bei denen IT-Abteilungen lediglich lange Listen mit Warnmeldungen erhielten und jeden Fehler händisch ausbessern mussten. + Quelle: Google Reaktion auf verkürzte Angriffsfenster Der Druck zur Automatisierung in der Cybersicherheit wächst spürbar. Moderne Sprachmodelle finden Programmierfehler extrem schnell, sodass Angreifer aus veröffentlichten Updates oft in wenigen Minuten funktionierende Exploits ableiten. Die in der Branche bisher übliche Schonfrist von 90 Tagen für das Schließen von Lücken gilt unter Experten damit als hinfällig. Die Praxis wird nun zeigen müssen, wie stabil die generierten Patches im echten Produktivbetrieb laufen. Immerhin übergeben Firmen mit der Nutzung solcher Systeme weitreichende Eingriffe in ihren Quellcode an autonome KI-Agenten. Anzeige

  • YouTube macht sein KI-Deepfake-Erkennungstool jetzt für alle Creator ab 18 Jahren verfügbar

    YouTube öffnet sein Likeness-Detection-Tool für alle Creator ab 18 Jahren. Das System erkennt KI-generierte Gesichtsfälschungen in fremden Videos und ermöglicht direkt über YouTube Studio einen Löschantrag. Bisher war die Funktion nur Mitgliedern des Partnerprogramms vorbehalten, nun soll sie auch kleinere Kanäle schützen.

    Der Artikel YouTube macht sein KI-Deepfake-Erkennungstool jetzt für alle Creator ab 18 Jahren verfügbar erschien zuerst auf The Decoder.

  • OpenAI veröffentlicht GPT-5.5 Instant und ändert einiges

    Sam Altman rennt verdammt schnell

    Nano Banana

    Kurzfassung

    Quellen

    OpenAI veröffentlicht das neue KI-Modell GPT-5.5 Instant und macht es zum Standard für alle ChatGPT-Nutzer.
    Die Architektur reduziert Halluzinationen bei komplexen Themen wie Medizin oder Finanzen um über 50 Prozent und verbessert die Ergebnisse in diversen Benchmarks.
    Antworten fallen im Durchschnitt rund 30 Prozent kürzer aus, da die Software auf ausschweifende Erklärungen und unnötige Emojis verzichtet.
    Dank der neuen Funktion Memory Sources können Anwender künftig transparent einsehen und steuern, welchen vergangenen Kontext die KI für ihre Ausgaben nutzt.

    OpenAI: GPT‑5.5 Instant: smarter, clearer, and more personalized
    OpenAI: GPT-5.5 Instant System Card

    OpenAI rollt das neue Modell GPT-5.5 Instant für alle Nutzer aus. Dabei löst die KI den direkten Vorgänger als Standard in ChatGPT ab. Im Fokus stehen kürzere Antwortzeiten, weniger Halluzinationen und eine verbesserte Nutzung bestehender Nutzerdaten. Höhere Präzision bei komplexen Aufgaben Besonders im Umgang mit faktenbasierten Anfragen zeigt das neue System deutliche Fortschritte. Laut den internen Auswertungen des Unternehmens sinken die sogenannten Halluzinationen bei hochriskanten Themenbereichen wie Medizin, Recht und Finanzen um 52,5 Prozent. Bei zuvor von Nutzern als fehlerhaft markierten Unterhaltungen reduziert die Architektur ungenaue Behauptungen immerhin noch um 37,3 Prozent. Gleichzeitig steigt die Leistung in etablierten Benchmarks spürbar an. So erreicht das Modell im AIME 2025 Test für kompetitive Mathematik nun eine Genauigkeit von 81,2 Prozent, während die Vorgängerversion hier nur 65,4 Prozent lieferte. Einen ähnlichen Anstieg verzeichnet die Software beim GPQA-Benchmark für wissenschaftliche Aufgaben auf Doktoranden-Niveau. Dort klettert der Wert von 78,5 auf exakt 85,6 Prozent. Weiterhin sinkt die durchschnittliche Fehlerrate bei der Analyse von Dokumenten im OmniDocBench-Testlauf auf 12,5 Prozent. + Quelle: OpenAI Direktere Kommunikation und Kontext Auffällig verändert hat der Entwickler den generellen Sprachstil des Chatbots. In der Praxis benötigt GPT-5.5 Instant rund 30 Prozent weniger Wörter und Zeilen für eine finale Antwort. Anstatt ausschweifende Erklärungen zu generieren, konzentriert sich die KI auf das Wesentliche. Überflüssige Emojis oder ständige Gegenfragen filtert das System nun konsequenter heraus. Darüber hinaus greift das KI-Modell wesentlich intelligenter auf vergangene Chatverläufe und verknüpfte Dienste wie Gmail zurück. Erkennt die Software, dass personalisierte Details den Output aufwerten, zieht sie diese Informationen automatisch heran. Anwender müssen komplexe Sachverhalte dadurch seltener wiederholen, was gerade bei fortlaufenden Projekten viel Zeit spart. Anzeige Neue Transparenz und Sicherheitsstufen Um die personalisierten Ausgaben nachvollziehbarer zu machen, integriert OpenAI erstmals konkrete Quellenangaben für den internen Speicher. Anwender sehen dadurch exakt, welche früheren Gespräche das System für die aktuelle Antwort nutzt. Veraltete oder fehlerhafte Kontext-Informationen können Nutzer über diese neuen Memory Sources direkt aus dem Gedächtnis der KI löschen. Wer seine Dialoge online teilt, überträgt diese sensiblen Quellenangaben absichtlich nicht an Dritte weiter. Aufgrund der gewachsenen Fähigkeiten stuft der Entwickler das Instant-Modell erstmals in die Risikoklasse »High Capability« für Cybersicherheit sowie biologische Bedrohungen ein. Zwar agiert das System in diesen Feldern weiterhin unterhalb der komplexeren Thinking-Modelle, dennoch aktivieren sich ab sofort verschärfte Schutzmechanismen. Automatisiertes Monitoring unterbrecht potenziell schädliche Unterhaltungen direkt, während erweiterte Filter das Prompting absichern. Damit passt OpenAI die gesamte Sicherheitsstruktur an die gestiegene Leistungsfähigkeit im Alltag an.

  • Hat Google DeepMind den perfekten Arzt erschaffen?

    Ein KI Google Deepmind Arzt

    Nano Banana

    Kurzfassung

    Quellen

    Google DeepMind stellt mit dem AI co-clinician ein multimodales KI-Modell vor, das Audio und Video von Patienten in Echtzeit auswertet.
    Bei komplexen medizinischen Benchmarks wie offenen Medikationsfragen übertrifft das System Konkurrenten wie GPT-5.4-thinking-with-search deutlich.
    Trotz der starken Assistenz-Fähigkeiten bei Voruntersuchungen schneiden echte Hausärzte bei kritischen Diagnosen und Anamnesen weiterhin besser ab.

    Google DeepMind – Enabling a new model for healthcare with AI co-clinician

    Google DeepMind präsentiert mit dem AI co-clinician ein fortschrittliches KI-Modell zur ärztlichen Unterstützung. Das System verarbeitet Echtzeit-Video sowie Audio im direkten Patientengespräch und erzielt bei komplexen Diagnosefragen neue Bestwerte. Präzision schlägt Konkurrenzmodelle Zuverlässige Antworten bilden das absolute Fundament für den klinischen Einsatz. In einem blinden Testlauf mit 98 typischen Anfragen aus der Primärversorgung bewies der AI co-clinician eine enorm hohe Fakten-Treue. Das System produzierte in 97 untersuchten Fällen exakt null kritische Fehler. Unabhängige Fachärzte bevorzugten diese Resultate durchgängig gegenüber etablierten Programmen zur Informationsbeschaffung. + Quelle: Google Besonders deutlich wird die Leistungsfähigkeit bei dem anspruchsvollen OpenFDA-Benchmark für Medikationswissen. Hier erreicht Googles Architektur bei offenen Fragestellungen einen beeindruckenden Wert von 95,0 Prozent. Das direkte Konkurrenzmodell GPT-5.4-thinking-with-search kommt im selben Szenario auf nur 90,9 Prozent. Auch bei geschlossenen Multiple-Choice-Fragen setzt sich der Neuling mit 73,3 Prozent an die Spitze, während praktizierende Hausärzte im Open-Book-Verfahren hier lediglich 61,3 Prozent erzielten. + Quelle: Google Telemedizin durch multimodale Eingaben Reine Text-Chats stoßen im medizinischen Alltag schnell an ihre Grenzen. Aus diesem Grund integriert DeepMind visuelle und akustische Fähigkeiten aus dem Project Astra in die Modellarchitektur. Anstatt nur Symptome abzutippen, verarbeitet das Programm in simulierten Telemedizin-Calls live die Video- und Audiosignale der Patienten. Durch die Handykamera analysiert die KI beispielsweise die Atemtechnik bei der Nutzung eines Inhalators und korrigiert Anwendungsfehler in Echtzeit. Gleichzeitig führt das System Patienten verbal durch komplexe Bewegungsabläufe, um Schulterverletzungen aus der Ferne zu erkennen. Eine duale Agenten-Architektur kontrolliert dabei permanent den Dialog. Ein unsichtbarer Planer überwacht kontinuierlich den sprechenden Teil des Modells, um gefährliche Ratschläge strikt zu verhindern. Das folgende Video zeigt keine echten Patienten, gibt aber einen guten Einblick:

    Fachärzte dominieren bei kritischen Entscheidungen Hochwertige Simulationen relativieren jedoch die Vorstellung einer vollautonomen Maschine. In 120 standardisierten Szenarien maßen Forscher das Modell mit echten Hausärzten anhand von 140 strikten Qualitätskriterien. Das menschliche Fachpersonal lieferte insgesamt deutlich bessere und sicherere Ergebnisse ab. Speziell bei der Identifikation von »Red Flags« sowie bei den Behandlungsschritten und der physischen Anamnese übertreffen die Mediziner das KI-Modell klar. Eine grafische Auswertung zeigt, dass die Ärzte in diesen essenziellen Kategorien konstante Spitzenwerte erzielen, während das System öfter wichtige Details übersieht. Lediglich bei der Ersteinschätzung, der sogenannten Triage, agieren Mensch und Maschine auf Augenhöhe. + Quelle: Google Fokus liegt auf der Assistenz Trotz der ärztlichen Überlegenheit belegen die Daten den enormen Nutzen als leistungsstarkes Assistenzsystem. In 68 der 140 untersuchten Bereiche erreichte das Programm das Niveau der Hausärzte oder übertraf dieses sogar leicht. Gegenüber reinen Audio-Modellen wie GPT-realtime zeigte sich Googles Entwicklung zudem in absolut allen Disziplinen weitaus fähiger. Der Ansatz der sogenannten triagierten Versorgung rückt damit näher an die Realität heran. Ärzte lagern zeitraubende Voruntersuchungen aus, behalten aber bei sämtlichen Diagnosen die finale Entscheidungsgewalt. Testläufe in echten klinischen Umgebungen stehen in mehreren Ländern auf dem Programm. Anzeige