Claude Sonnet 4.6 schlägt die starke Konkurrenz im Büro

Ein Kunstwerk von einem Kopf aus Neuronen

Nano Banana

Kurzfassung
▾

Quellen
▾

Anthropic hat das neue KI-Modell Claude Sonnet 4.6 veröffentlicht, das in einer Beta-Phase mit einem massiven Kontextfenster von einer Million Token aufwartet.
Das Modell punktet mit stark verbesserten agentischen Fähigkeiten und bedient Desktop-Oberflächen wesentlich präziser als sein Vorgänger.
In Benchmark-Tests für die selbstständige Programmierung und die komplexe Websuche erzielt die KI bemerkenswerte Leistungssteigerungen.
Auch bei der langfristigen Finanzplanung in Simulationen agiert Sonnet 4.6 deutlich profitabler und strategischer als noch Version 4.5.

Anthropic: Claude Sonnet 4.6

Anthropic: Claude Sonnet 4.6 System Card

Anthropic: Claude Sonnet 4.6 Produktseite

Anthropic hat das KI-Modell Claude Sonnet 4.6 veröffentlicht und integriert in einer Beta-Phase ein erweitertes Kontextfenster von einer Million Token. Das Update liefert messbare Leistungssteigerungen bei der autonomen Computersteuerung sowie der Code-Generierung. Der Preis bleibt dabei mit $3/$15 pro Million Token stabil.

Autonome Computersteuerung im Detail Die Entwickler legen bei der neuen Version einen klaren Schwerpunkt auf sogenannte agentische Fähigkeiten. Das Modell kann Desktop-Oberflächen steuern, Klicks ausführen und Programme bedienen. Laut den veröffentlichten Benchmarks erreicht Sonnet 4.6 im OSWorld-Verified-Test einen Wert von 72,5 Prozent. + Quelle: Anthropic Zum Vergleich lag der Vorgänger Sonnet 4.5 im Oktober 2025 noch bei 61,4 Prozent. Diese kontinuierliche Steigerung verdeutlicht, dass die KI zunehmend fehlerfrei mit grafischen Benutzeroberflächen interagiert. Ein Blick auf die direkte Konkurrenz zeigt ein enges Feld. Bei typischen Büroaufgaben, gemessen im GDPval-AA Elo, übertrifft Sonnet 4.6 mit einem Wert von 1633 sowohl Gemini 3 Pro als auch GPT-5.2. Lediglich bei der agentischen Terminal-Programmierung bleibt das neue Modell mit 59,1 Prozent hinter den Spitzenwerten der Mitbewerber zurück. + Quelle: Anthropic Programmierung und Informationsbeschaffung Auch bei der reinen Softwareentwicklung verzeichnet das Modell Fortschritte. Im anerkannten SWE-bench Verified, der die Lösung echter GitHub-Probleme misst, erzielt Sonnet 4.6 nun 79,6 Prozent und platziert sich damit knapp hinter dem größeren Modell Opus 4.6. Die künstliche Intelligenz analysiert Code-Strukturen und schreibt selbstständig funktionierende Patches. Ein großer Sprung zeigt sich bei der agentischen Websuche. Der BrowseComp-Score klettert im Vergleich zur Version 4.5 von 43,9 Prozent auf 74,7 Prozent. Das bedeutet, dass das Modell komplexe Recherchen im Internet deutlich zielgerichteter und mit weniger Abbrüchen durchführt. Anzeige Langfristige Planung in Simulationen Die Fähigkeit zur langfristigen Handlungsplanung wurde unter anderem in der Vending-Bench Arena getestet. In dieser Simulation verwalten die Modelle ein virtuelles Budget über einen Zeitraum von 350 Tagen. Sonnet 4.6 agiert hier wesentlich profitabler als die Vorversion. Während das Vorgängermodell den Kontostand nach der Testlaufzeit auf etwa 2.000 US-Dollar anhebt, erwirtschaftet Sonnet 4.6 durch strategischere Entscheidungen ein Endguthaben von über 5.600 US-Dollar. Diese Diskrepanz entsteht durch die verbesserte Fehlerkorrektur bei aufeinanderfolgenden Transaktionen. + Quelle: Anthropic Das erweiterte Kontextfenster von einer Million Token befindet sich aktuell noch in einer geschlossenen Testphase. Claude Sonnet 4.6 steht ab sofort über die API sowie für Nutzer der kostenlosen und der Pro-Stufe zur Verfügung.

Claude Sonnet 4.6 schlägt die starke Konkurrenz im Büro

Beitrags-Benachrichtigung

Ihr E-Mail Konto:

Häufigkeit der E-Mail Zusammenfassung:

Leser:innen sagen:

Beitrags-
Benachrichtigung