Schlagwort: Modell

MiniMax M3: Günstiger und besser als die US-Konkurrenz?

GPT-Images-2.0

Kurzfassung
▾

Quellen
▾

MiniMax hat das neue KI-Modell M3 veröffentlicht, das besonders auf komplexe Programmieraufgaben und autonome Agenten-Funktionen spezialisiert ist.
Eine neu entwickelte Architektur ermöglicht ein extrem großes Kontextfenster von einer Million Token bei gleichzeitig deutlich reduziertem Rechenaufwand.
Das System verarbeitet Text, Bilder sowie Videos nativ und kann sogar eigenständig Desktop-Anwendungen bedienen.
Entwickler können das Modell über eine API oder verschiedene Abonnement-Pläne ab 20 US-Dollar im Monat nutzen.

MiniMax M3: Frontier Coding, 1M Context, Native Multimodality
MiniMax M3 – Coding & Agentic Frontier, 1M Context, Multimodal
Models – MiniMax API Docs – MiniMax
Models – MiniMax API Docs
M3 for AI Coding Tools – Models – MiniMax API Docs

Das KI-Unternehmen MiniMax hat heute das neue Modell M3 veröffentlicht. Das System kombiniert umfangreiche Programmierfähigkeiten, native Multimodalität und ein Kontextfenster von einer Million Token. Das Modell konkurriert damit direkt mit den leistungsstärksten Modellen wie GPT-5.5 und Gemini 3.1 Pro. Fokus auf autonome Programmieraufgaben MiniMax M3 legt den Schwerpunkt auf die Softwareentwicklung und den Einsatz als eigenständiger Agent. Das Modell generiert nicht nur einfachen Programmcode, sondern bewältigt langfristige Projektaufgaben. Dabei orientiert sich das System stark an der realen Arbeitsweise von Programmierern. Es kann Anforderungen klären, Lösungswege diskutieren und Arbeitsaufträge während eines Projekts dynamisch anpassen. In verschiedenen Leistungstests liefert das System überdurchschnittliche Resultate. Beim Benchmark SWE-Bench Pro, der die Programmierfähigkeiten misst, erreicht MiniMax M3 einen Wert von 59,0 Prozent. Damit lässt es die Modelle GPT-5.5 und Gemini 3.1 Pro hinter sich. Einzig Opus 4.7 ist noch stärker. Beim Test Terminal-Bench 2.1 sichert sich das neue Modell mit 66,0 Prozent ebenfalls einen guten Platz. Opus 4.7 erreicht hier fast identische 66.1 Prozent, GPT-5.5 allerdings starke 78.2 Prozent. + Quelle: MiniMax Komplexe Praxistests und Optimierungen Die Entwickler haben das Modell mehreren Härtetests unterzogen. Bei der Optimierung einer CUDA-Komponente für spezielle Nvidia-Grafikkarten arbeitete das System rund 24 Stunden völlig selbstständig. Das Modell startete lediglich mit einer Aufgabenbeschreibung und ohne eine funktionierende Referenzlösung. In dieser Zeit führte das Programm 147 Leistungstests und knapp 2.000 interne Funktionsaufrufe durch. Im Gegensatz zu anderen Modellen, die solche Versuche frühzeitig abbrechen, suchte MiniMax M3 beharrlich nach neuen Lösungsansätzen. Am Ende steigerte das System die Hardware-Auslastung von ursprünglich 7,6 Prozent auf 71,3 Prozent. Das entspricht einer mehr als neunfachen Geschwindigkeitssteigerung. Auch beim Training eigener kleiner Modelle über den PostTrainBench zeigte das System seine Stärken. Das Modell steuerte den Vorgang von der Datensynthese über das Training bis hin zur Auswertung komplett autark. Das System erreichte dabei einen Wert von 0,37 Punkten und positionierte sich dicht hinter Opus 4.7 und GPT-5.5. + Quelle: MiniMax Effizienz durch veränderte Architektur Ein entscheidendes technisches Merkmal von MiniMax M3 ist die sogenannte MiniMax Sparse Attention Architektur, kurz MSA. Diese Technik stellt den reibungslosen Umgang mit dem riesigen Kontextfenster von einer Million Token sicher. Bei älteren Architekturen stieg der Rechenaufwand mit wachsender Textlänge überproportional an. MSA teilt die eingehenden Daten sehr präzise in einzelne Blöcke auf. Das System liest jeden Block nur ein einziges Mal. Dadurch sinkt der Rechenaufwand laut Angaben der Entwickler enorm. Bei voller Auslastung des Kontextfensters benötigt das Modell nur ein Zwanzigstel der Rechenleistung im Vergleich zur Vorgängerversion. Das sorgt für eine deutlich beschleunigte Verarbeitung von großen Datenmengen in der Praxis. + Quelle: MiniMax Bild, Video und Desktop-Steuerung Das System lernt von Beginn an mit gemischten Datensätzen. Diese native Multimodalität sorgt dafür, dass das Modell Bilder, Videos und Texte tiefgreifend miteinander verknüpft. Im OmniDocBench-Test, der genau diese Kombination prüft, erzielt MiniMax M3 bessere Werte als der Konkurrent Gemini 3.1 Pro. Das Modell verarbeitet zudem hochgeladene Videodateien und analysiert Grafiken in wissenschaftlichen Publikationen. Eine weitere Besonderheit ist die Fähigkeit, einen Computer-Desktop zu bedienen. Das System kann Programme öffnen, Dateien verschieben oder Excel-Tabellen auslesen. Diese visuelle Steuerung ermöglicht den unkomplizierten Einsatz als digitaler Assistent bzw. KI-Agent für herkömmliche Büroaufgaben. Das klappt übrigens ähnlich wie bei Computer Use von OpenAI jetzt auch per Smartphone.

Top News
OpenAIs Codex steuert Windows PCs nun eigenständig
Die KI bedient Programme und den Mauszeiger. Nutzer kontrollieren die Aufgaben bequem per Smartphone.

Veröffentlichung und Preisgestaltung Nutzer greifen entweder über die Chatoberfläche oder über die API auf das Modell zu. Die Kosten belaufen sich dabei auf 2,40$ pro 1M Output Token. Bei sehr großen Kontextfenstern ab 512.000 Token verdoppelt sich dieser Preis auf 4,80$. Für die ersten sieben Tage gewährt der Hersteller einen Rabatt von 50 Prozent auf das kleinere Kontextfenster. + Quelle: MiniMax Anzeige
Qwen VLA ist eine universelle KI für alle Roboter

GPT-Images-2.0

Kurzfassung
▾

Quellen
▾

Das neue KI-Modell Qwen-VLA übersetzt Sprache und Bilder direkt in physische Roboterbewegungen.
Im Gegensatz zu bisherigen Systemen steuert diese universelle Software unterschiedlichste Robotertypen und navigiert selbstständig durch Räume.
In Tests erzielt das Modell Bestwerte und passt sich flexibel an unbekannte Objekte sowie veränderte Umgebungen an.

Qwen Team – Qwen-VLA: From Understanding the World to Acting in It

Das Entwicklerteam hinter der KI Qwen hat das neue Modell Qwen-VLA vorgestellt. Das System versteht nicht nur visuelle und sprachliche Eingaben, sondern wandelt diese direkt in physische Handlungen für Roboter um. Damit überwindet die KI die reine Textausgabe. Ein Modell für sämtliche Aufgaben Bisherige Systeme in der Robotik arbeiten stark spezialisiert. Ein Programm kümmert sich um die Navigation, ein anderes steuert einen Greifarm und ein drittes ist fest an eine bestimmte Hardware gebunden. Qwen-VLA fasst diese Bereiche nun in einer universellen Architektur zusammen. Die KI verarbeitet Kamerabilder sowie gesprochene Anweisungen und berechnet daraus den nächsten Bewegungsschritt. Dadurch lässt sich dieselbe Software für unterschiedlichste Robotertypen und Aufgabenstellungen einsetzen. In aktuellen Tests erzielt das System bemerkenswerte Ergebnisse und schlägt teilweise sogar spezialisierte Programme. Bei der Benchmark-Aufgabe LIBERO verzeichnet Qwen-VLA eine Erfolgsquote von 97,9 Prozent. Auch in der simulierten Umgebung RoboTwin erreicht das Modell auf dem höchsten Schwierigkeitsgrad einen Wert von 87,2 Prozent. + Quelle: Alibaba Der Trainingsprozess in vier Stufen In der ersten Stufe lernt die Software, Textanweisungen in grundlegende Bewegungsabläufe zu übersetzen. Das System trainiert dabei ausschließlich die motorische Steuerung, komplett ohne visuelle Daten. Während der zweiten Stufe verarbeitet das KI-Modell zusätzlich Kamerabilder. Es verknüpft nun das zuvor erlernte Textverständnis mit konkreten räumlichen Umgebungen. In der dritten Stufe erfolgt ein gezieltes Feintuning. Ein Teil des Trainings optimiert allgemeine Aufgaben wie die Navigation, während ein anderer Teil das Modell mit echten Steuerungsdaten für physische Roboter anpasst. Die vierte Stufe nutzt bestärkendes Lernen in einer simulierten Umgebung. Die KI trainiert dort die fehlerfreie Ausführung kompletter Aufgaben und überträgt dieses Wissen später auf echte, völlig unbekannte Szenarien. + Quelle: Alibaba Handeln in unbekannten Situationen Besonders in realen Tests mit einem zweiarmigen ALOHA-Roboter zeigt das Modell eine hohe Anpassungsfähigkeit. Wenn die KI mit unbekannten Farben, Objekten oder veränderten Lichtverhältnissen konfrontiert wird, führt sie Befehle weiterhin zuverlässig aus. Gleichzeitig reagiert das System auf dynamische Veränderungen in der Umgebung. Fällt ein Gegenstand um oder bewegt sich das Ziel, passt Qwen-VLA den Bewegungsablauf an. Die Entwickler betonen, dass die KI keine festen Schablonen auswendig lernt, sondern das eigentliche Ziel einer Aufgabe begreift. So packt es dann je nach Wetter die Kappe oder den Regenschirm ein. + Quelle: Alibaba Anzeige
Forscher definieren KI-Agenten neu: Code wird vom Ergebnis zur Betriebsschicht

Eine neue Übersichtsarbeit argumentiert, dass nicht das Sprachmodell selbst, sondern die umgebende Software-Schicht den entscheidenden Engpass autonomer KI-Agenten darstellt. Werkzeuge, Speicher, Prüfmechanismen und Berechtigungsgrenzen verwandeln demnach erst ein zustandsloses Modell in einen funktionsfähigen Agenten. Deepseek baut in Peking bereits ein eigenes „Harness“-Team auf, dessen Kernformel die These bestätigt: Modell plus Harness gleich KI-Agent.

Der Artikel Forscher definieren KI-Agenten neu: Code wird vom Ergebnis zur Betriebsschicht erschien zuerst auf The Decoder.
Anthropic veröffentlicht Claude Opus 4.8 als „bescheidenes, aber spürbares Update“

Anthropic veröffentlicht Claude Opus 4.8. Das Modell übertrifft in den meisten Benchmarks GPT-5.5 und Gemini 3.1 Pro. Es soll zudem viermal seltener als sein Vorgänger eigene Fehler unkommentiert durchgehen lassen. Parallel führt Anthropic dynamische Workflows ein, bei denen Hunderte paralleler Subagenten Aufgaben wie Codebase-weite Migrationen übernehmen sollen.

Der Artikel Anthropic veröffentlicht Claude Opus 4.8 als „bescheidenes, aber spürbares Update“ erschien zuerst auf The Decoder.
Qwen3.7-Max löst komplexe Entwicklungsaufgabe in 1158 autonomen Schritten

Alibabas Qwen-Team stellt mit Qwen3.7-Max ein proprietäres Modell vor, das auf langfristige autonome Arbeit als KI-Agent ausgelegt ist. In Benchmarks positioniert es sich auf dem Niveau von Claude Opus 4.6 und übertrifft chinesische Konkurrenten wie DeepSeek V4 Pro und Kimi K2.6. Fast nebenbei zeigt das Team das Modell auch als Steuerung für einen vierbeinigen Roboter.

Der Artikel Qwen3.7-Max löst komplexe Entwicklungsaufgabe in 1158 autonomen Schritten erschien zuerst auf The Decoder.
KI wird teurer: Googles neues KI-Modell Gemini 3.5 Flash setzt den Trend fort

Googles Gemini 3.5 Flash ist deutlich leistungsfähiger als sein Vorgänger, kostet im Betrieb aber 5,5-mal so viel. Bei agentischen Aufgaben übersteigen die Gesamtkosten sogar die des teureren Gemini 3.1 Pro um 75 Prozent, weil das Modell mehr Interaktionsschritte benötigt als jedes andere getestete Modell. Google folgt hier einem größeren Trend: KI wird teurer, die extremen Investitionen müssen sich rechnen.

Der Artikel KI wird teurer: Googles neues KI-Modell Gemini 3.5 Flash setzt den Trend fort erschien zuerst auf The Decoder.
Googles I/O KI-News: Neue Modelle, ein Cloud-Agent, der nie schläft, und eine runderneuerte Gemini-App

Google hat auf seiner Entwicklerkonferenz I/O eine ganze Reihe neuer KI-Produkte angekündigt. Im Mittelpunkt stehen das neue Modell Gemini 3.5 Flash, das neue multimodale Modell Gemini Omni und ein persönlicher Agent namens Gemini Spark, der dauerhaft in der Cloud läuft. Die Gemini-App bekommt zudem einige neue Funktionen.

Der Artikel Googles I/O KI-News: Neue Modelle, ein Cloud-Agent, der nie schläft, und eine runderneuerte Gemini-App erschien zuerst auf The Decoder.
EU verhandelt mit OpenAI und Anthropic über Zugang zu fortschrittlichen KI-Modellen

OpenAI bietet der EU-Kommission proaktiv Zugang zu seinem neuen Modell GPT-5.5 Cyber an – Anthropic zeigt sich bei Claude Mythos trotz mehrerer Treffen zurückhaltender. Die Gespräche legen ein strukturelles Problem offen: Europa hat trotz AI Act deutlich weniger technischen Zugang zu Frontier-Modellen als etwa Großbritannien.

Der Artikel EU verhandelt mit OpenAI und Anthropic über Zugang zu fortschrittlichen KI-Modellen erschien zuerst auf The Decoder.
Claude führt zwei neue geniale Funktionen ein

Nano Banana

Kurzfassung
▾

Quellen
▾

Nach vorherigen Leaks hat Anthropic die Funktion »Dreaming« für Claude Managed Agents offiziell veröffentlicht.
KI-Modelle analysieren damit im Hintergrund vergangene Konversationen, um typische Muster zu erkennen und ihr Gedächtnis zu optimieren.
Eine neue Qualitätskontrolle namens Outcomes prüft generierte Ergebnisse zudem über ein separates Modell nach strengen Kriterien auf Richtigkeit.
Zusätzlich lassen sich komplexe Aufgaben künftig über eine Orchestrierung auf mehrere parallel arbeitende Sub-Agenten aufteilen.

Anthropic: New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration

Nach wochenlangen Spekulationen um einen Leak ist die Funktion »Dreaming« für Claude nun offiziell bestätigt. Anthropic integriert das neue Gedächtnissystem in seine Managed Agents, womit die KI-Modelle Muster aus vergangenen Sitzungen analysieren und sich selbstständig verbessern. Automatisierte Selbstreflexion durch Dreaming Im Hintergrund durchsucht das neue Konzept abgelaufene Konversationen und Speicherstände. Dabei extrahiert das Modell wiederkehrende Arbeitsabläufe oder typische Fehler. Darüber legen Entwickler fest, ob die KI-Modelle diesen Lernprozess vollautomatisch im Speicher ablegen oder eine manuelle Freigabe verlangen. Im Zusammenspiel mit dem regulären Gedächtnis entsteht so eine dynamische Wissensdatenbank. Während ein Agent im laufenden Betrieb Informationen sammelt, verfeinert die Dreaming-Funktion diese Daten in den Ruhephasen. Das hält den Kontext für langfristige Aufgaben präzise. + Quelle: Anthropic Strenge Qualitätskontrolle mit Outcomes Neben dem Langzeitgedächtnis führt der Anbieter eine neue Bewertungsfunktion namens »Outcomes« ein. Dafür definieren Entwickler einen genauen Maßstab für erfolgreiche Antworten. Anschließend prüft ein separates Modell das Ergebnis in einem eigenen Kontextfenster. Erfüllt die generierte Antwort die Kriterien nicht, benennt die Kontrollinstanz die Fehlerquellen. Daraufhin unternimmt der Agent einen neuen Versuch. Interne Benchmarks belegen diesen Effekt: Bei der Erstellung von Präsentationen stieg die Erfolgsquote um 10,1 Prozent, bei Textdokumenten um 8,4 Prozent gegenüber einfachen Prompting-Schleifen. Anzeige Arbeitsteilung unter KI-Modellen Für besonders umfangreiche Aufträge steht nun die sogenannte Multiagent Orchestration bereit. Dabei zerlegt ein Haupt-Agent komplexe Anfragen in kleine Einzelschritte. Diese Teilaufgaben delegiert er an spezialisierte Sub-Agenten, die parallel auf einem gemeinsamen Dateisystem arbeiten. Ein Einsatzbeispiel liefert das Unternehmen Spiral, welches ein kleines Modell für die Kommunikation nutzt. Die eigentliche Textproduktion übernehmen dann mehrere große KI-Modelle gleichzeitig im Hintergrund. Über den finalen Abschluss des gesamten Prozesses informiert am Ende ein Webhook. + Quelle: Anthropic
Anthropic bringt vorgefertigte KI-Agenten in die Finanzbranche

Nano Banana

Kurzfassung
▾

Quellen
▾

Anthropic hat zehn vorkonfigurierte KI-Agenten für den Finanzbereich vorgestellt, die auf dem leistungsstarken Modell Claude Opus 4.7 basieren.
Die Systeme übernehmen zeitraubende Aufgaben wie Risikoprüfungen oder das Erstellen von Pitchbooks und integrieren sich nativ in den Workflow von Microsoft 365.
Durch neue Partnerschaften mit Datenanbietern wie Moody’s und Dun & Bradstreet erhalten die KI-Modelle sicheren Zugriff auf verifizierte Unternehmensinformationen.

Anthropic: Agents for financial services

Anthropic bringt zehn vorkonfigurierte KI-Agenten speziell für die Finanzbranche auf den Markt. Basis dafür bildet das Modell Claude Opus 4.7, welches komplexe Aufgaben wie das Erstellen von Pitchbooks, detaillierte Risikoprüfungen und den Monatsabschluss selbstständig übernimmt. Spezifische Lösungen für Finanzexperten Die neu vorgestellten Agenten decken primär Bereiche wie Research, Compliance und Finanzbuchhaltung ab. Dabei fungieren die Systeme als eigenständige Assistenten, die Zielfirmenlisten generieren, Finanzberichte analysieren oder Bewertungsprüfungen durchführen. Für das Research existiert beispielsweise ein eigener Agent, der Geschäftsberichte liest und relevante Änderungen in den Dokumenten markiert. Laut dem Vals AI Finance Agent Benchmark erreicht das zugrundeliegende Modell Claude Opus 4.7 hierbei einen Branchenspitzenwert von 64,37 Prozent. Jedes Template kombiniert spezifische Fähigkeiten mit einem geregelten Datenzugriff und zieht bei Bedarf weitere KI-Modelle als Subagenten für Teilaufgaben heran. Unternehmen passen diese Vorlagen im Anschluss flexibel an eigene Richtlinien und interne Freigabeprozesse an.

Nahtlose Einbindung in den Arbeitsalltag Nutzer betreiben die Agenten entweder als Plugin in Claude Cowork direkt am Arbeitsplatz oder lassen sie autonom als Managed Agent laufen. Letztere Option eignet sich besonders für umfangreiche, mehrstündige Deal-Closings. Ein vollständiges Audit-Log dokumentiert dabei alle Aufrufe und Entscheidungen der KI-Modelle detailliert für die nachgelagerten Compliance-Teams. Zusätzlich klinkt sich Claude nativ in die Anwendungen von Microsoft 365 ein. Kontext und Daten wandern so automatisch zwischen Excel, Word und PowerPoint hin und her. Beginnt ein Analyst ein komplexes Finanzmodell in Excel, formuliert das System später die passenden Präsentationsfolien, ohne dass eine erneute Eingabe von Hintergrundinformationen nötig ist. Anzeige Frische Daten und harter Wettbewerb Echte Mehrwerte entstehen bei solchen KI-Modellen erst durch den direkten Zugriff auf verifizierte externe Datenbanken. Dafür integriert der Anbieter neue Verbindungen zu Informationsdienstleistern wie Dun & Bradstreet, Guidepoint, IBISWorld und Verisk. Moody’s steuert zudem eine eigene Anwendung bei, welche proprietäre Bonitätsdaten zu mehr als 600 Millionen Unternehmen unmittelbar in die Benutzeroberfläche von Claude einspeist. Dieser Vorstoß zielt eindeutig auf das lukrative Geschäft mit Großkunden ab. Anthropic liefert sich hier ein enges Rennen mit OpenAI, um zügig Marktanteile bei großen Banken, Vermögensverwaltern und Versicherern zu sichern. Beide Unternehmen positionieren sich derzeit stark im Enterprise-Segment, da voraussichtlich noch in diesem Jahr erste Börsengänge anstehen und dafür ein solides Umsatzwachstum nachgewiesen werden muss.