Schlagwort: Modelle

Mathe-Benchmark zeigt: KI-Modelle liefern selbstbewusst Antworten auf unlösbare Aufgaben

Ein Konsortium aus Mathematikern hat mit SOOHAK einen neuen KI-Benchmark aus 439 handgeschriebenen Aufgaben vorgelegt, darunter 99 absichtlich unlösbare Probleme. Googles Gemini 3 Pro führt mit 30 Prozent auf dem Forschungslevel. Doch beim Erkennen fehlerhafter Aufgaben scheitern alle Modelle unter 50 Prozent. Mehr Rechenleistung verbessert das Lösen, macht die Modelle aber nicht zurückhaltender beim Eingestehen, dass eine Aufgabe gar keine Lösung hat. Der Benchmark schließt damit eine Lücke zwischen spektakulären Einzeltreffern und der breiten Forschungskompetenz, die KI-Systeme bisher vermissen lassen.

Der Artikel Mathe-Benchmark zeigt: KI-Modelle liefern selbstbewusst Antworten auf unlösbare Aufgaben erschien zuerst auf The Decoder.
Neuer Benchmark prüft KI-Videogeneratoren wie Physiklehrer – und gibt schlechte Noten

Eine neue Benchmark namens WorldReasonBench prüft Videogeneratoren nicht an Bildqualität, sondern an physikalischer und logischer Plausibilität. ByteDances Seedance 2.0 führt das Feld vor Veo 3.1 und Sora 2, kommerzielle Modelle scoren dabei rund doppelt so hoch wie Open-Source-Alternativen. Logisches Schlussfolgern bleibt für alle Modelle die mit Abstand schwerste Disziplin. Der Sprung vom Pixelgenerator zum echten Weltmodell bleibt aus.

Der Artikel Neuer Benchmark prüft KI-Videogeneratoren wie Physiklehrer – und gibt schlechte Noten erschien zuerst auf The Decoder.
Warum KI-Agenten noch miserable Verhandlungspartner sind

GPT-Images-2.0

Kurzfassung
▾

Quellen
▾

Ein neuer Benchmark testet die Fähigkeiten von KI-Agenten in sozialen Verhandlungssituationen.
Aktuelle Sprachmodelle erledigen Aufträge zwar verlässlich, stimmen aber oft sehr schlechten Konditionen zu.
Besonders bei Preisverhandlungen auf Marktplätzen verschenken die digitalen Helfer fast den kompletten Spielraum.
Zudem zeigen sich die Modelle bei manipulativen Gegenübern anfällig und lehnen bösartige Anfragen selten ab.

Microsoft Research – SocialReasoning-Bench: Measuring whether AI agents act in users’ best interests

Künstliche Intelligenz übernimmt zunehmend eigenständige Aufgaben wie Terminplanungen oder Preisverhandlungen. Ein neuer Benchmark von Microsoft Research offenbart dabei eine gravierende Schwäche aktueller Modelle. Die Agenten schließen ihre Aufträge zwar zuverlässig ab, lassen sich dabei aber oft drastisch übervorteilen. Der SocialReasoning-Bench misst Verhandlungsgeschick Forscher überprüfen das soziale Denkvermögen von KI-Agenten in zwei praxisnahen Szenarien. Im Kalender-Management verhandeln die Modelle Termine mit anderen Agenten. Beim Marktplatz-Test feilschen sie um den besten Kaufpreis für ein Produkt. Dabei reicht es für eine gute Bewertung nicht mehr aus, die Aufgabe lediglich erfolgreich zu beenden. Zwei völlig neue Metriken bewerten stattdessen die tatsächliche Qualität der Arbeit. Die »Outcome Optimality« misst, wie viel Wert der Agent für seinen Auftraggeber am Ende herausholt. Die »Due Diligence« analysiert parallel den Entscheidungsprozess. Ein gutes Ergebnis zählt folglich nur, wenn die KI vorher Optionen sorgfältig geprüft und clevere Gegenangebote gemacht hat. + Quelle: Microsoft Modelle knicken bei Preisverhandlungen ein Aktuelle KI-Modelle wie GPT-5.4, Claude Sonnet 4.6 oder Gemini 3 Flash zeigen bei den Tests ein eindeutiges Verhaltensmuster. Sie erledigen fast alle Aufträge zuverlässig. Der Termin steht am Ende fest im Kalender und das Produkt wechselt erfolgreich den Besitzer. Allerdings akzeptieren die digitalen Helfer dabei fast immer extrem unvorteilhafte Konditionen. Im Marktplatz-Szenario unterschreiben nahezu alle getesteten Modelle Verträge exakt an der Schmerzgrenze des Nutzers. Sie verschenken dadurch den kompletten Verhandlungsspielraum. GPT-4.1 verhält sich in 95 Prozent dieser Fälle schlichtweg nachlässig und wägt keinerlei Alternativen ab. Im Kalender-Szenario schneiden die Agenten etwas besser ab. Gemini 3 Flash agiert hier in 90 Prozent der Fälle robust und sichert gute Zeiten für den Nutzer. Dennoch landen die vereinbarten Termine über alle Modelle hinweg im Durchschnitt unterhalb des optimalen Mittelwerts. + + Quelle: Microsoft Schutzmaßnahmen greifen zu kurz Spezielle Anweisungen im Vorfeld sollen die KI zu härteren Verhandlungen zwingen. Dieses defensive Prompting verbessert die Resultate in beiden Kategorien auch spürbar. GPT-5.4 profitiert am stärksten von diesen Vorgaben. Die Lücke zu einem wirklich makellosen Ergebnis schließt dieser Kniff jedoch nicht. Kritisch wird die Situation bei gezielten Manipulationen. Konfrontieren die Tester die Agenten mit aggressiven Gegenspielern, bricht die Qualität der Ergebnisse dramatisch ein. Die KI-Assistenten lehnen schädliche Kalenderanfragen fast nie ab. Einzig Claude Sonnet 4.6 verweigert bei 47 Prozent der bösartigen Termin-Anfragen die Kooperation. Andere Sprachmodelle weisen hier lediglich Abwehrraten zwischen fünf und 15 Prozent auf. Zukünftig müssen Entwickler den Modellen genauer beibringen, wann ein harter Verhandlungsstil nötig ist und wann ein Kompromiss ausreicht. Die aktuelle Generation agiert in sozialen Konfliktsituationen oft noch zu nachgiebig. Anzeige
KI-Sicherheitstests haben ein neues Problem: Modelle fälschen jetzt auch ihre eigenen Denkprozesse

Anthropic macht mit Natural Language Autoencoders die internen Aktivierungen von Claude Opus 4.6 als Klartext lesbar. Im Pre-Deployment-Audit zeigt sich: Modelle erkennen Testsituationen und täuschen Prüfer gezielt, ohne dies in ihren sichtbaren Reasoning-Traces preiszugeben. Die Methode bestätigt ein wachsendes Sicherheitsproblem und bietet zugleich einen möglichen Ansatz, es zu adressieren.

Der Artikel KI-Sicherheitstests haben ein neues Problem: Modelle fälschen jetzt auch ihre eigenen Denkprozesse erschien zuerst auf The Decoder.
Neues Mistral-Flaggschiff bündelt drei Modelle in einem und bringt Cloud-Agenten für Vibe

Mistral hat mit Mistral Medium 3.5 ein neues Flaggschiff vorgestellt, das die bisher getrennten Modelle für Chat, Reasoning und Code unter einem Dach zusammenführen soll. Parallel dazu führt das französische Unternehmen in seinem Coding-Tool Vibe asynchrone Cloud-Agenten ein und stattet Le Chat mit einem neuen agentischen Modus aus.

Der Artikel Neues Mistral-Flaggschiff bündelt drei Modelle in einem und bringt Cloud-Agenten für Vibe erschien zuerst auf The Decoder.
500 Banker bewerten KI-Ergebnisse und finden sie durchweg unbrauchbar für den Kundenkontakt

Ein neuer Benchmark prüft, ob Modelle wie GPT-5.4 oder Claude Opus 4.6 die Arbeit von Junior-Investmentbankern übernehmen können. Banker stufen keinen einzigen KI-Output als abgabereif ein; die generierten Inhalte sind zu ungenau oder schlicht fehlerhaft. Viele würden den Output aber als Grundlage für die Weiterarbeit nutzen.

Der Artikel 500 Banker bewerten KI-Ergebnisse und finden sie durchweg unbrauchbar für den Kundenkontakt erschien zuerst auf The Decoder.
Deepseek V4 ist das größte Open-Weights-Modell und unterbietet die Konkurrenz beim Preis deutlich

Das chinesische KI-Labor DeepSeek veröffentlicht mit V4-Pro und V4-Flash zwei neue Modelle mit bis zu 1,6 Billionen Parametern und einer Million Token Kontextfenster. Die Preise liegen weit unter denen von OpenAI, Google und Anthropic. Das technische Paper verrät zudem Details zu Trainingsdaten, Destillation und Hardware.

Der Artikel Deepseek V4 ist das größte Open-Weights-Modell und unterbietet die Konkurrenz beim Preis deutlich erschien zuerst auf The Decoder.
Google Chrome: AI Mode erhält Side-by-Side-Ansicht

Nano Banana

Kurzfassung
▾

Quellen
▾

Google erweitert den AI Mode in Chrome um eine Side-by-Side-Ansicht für den Desktop.
Webseiten und der KI-Chat lassen sich nun parallel in einem Fenster nutzen.
Ein neues Plus-Menü erlaubt zudem die Kombination mehrerer geöffneter Tabs in einer Suchanfrage.
Die Modelle verarbeiten dabei gleichzeitig Texte, Bilder und PDF-Dokumente.

Google Blog: A new way to explore the web with AI Mode in Chrome

Google integriert den AI Mode tiefer in den Chrome-Browser und ermöglicht eine parallele Nutzung von Webseiten und KI auf quasi einer Browser-Oberfläche. Anwender können im Browser direkt neben den Ergebnissen mit Inhalten interagieren, ohne den Tab wechseln zu müssen.

Nahtloser Kontext auf dem Desktop Klickt ein Nutzer im AI Mode auf einen Link, öffnet sich die Webseite in einer geteilten Ansicht direkt neben dem Chat. Das ständige Wechseln zwischen verschiedenen Tabs entfällt dadurch. Die KI behält den inhaltlichen Kontext der aufgerufenen Seite bei. So lassen sich spezifische Rückfragen zu einem langen Artikel oder einem Produkt stellen. Die Modelle analysieren den Text der aktuellen Webseite und kombinieren diese konkreten Informationen mit dem generellen Wissen aus dem Netz. Anzeige Suche über mehrere Tabs hinweg Eine zusätzliche Neuerung betrifft die direkte Einbindung bestehender Informationen. Über ein neues Plus-Menü auf der Startseite oder im AI Mode lassen sich bereits geöffnete Tabs in eine neue Suchanfrage integrieren. Diese Funktion steht sowohl in der Desktop-Version als auch in der mobilen Chrome-App bereit. Nutzer kombinieren dabei verschiedene Eingabeformate sehr flexibel in einem einzigen Prompt. Die Modelle verarbeiten nun gleichzeitig ausgewählte Tabs, hochgeladene Bilder oder lokale PDF-Dokumente. Die KI zieht die Fakten aus all diesen Quellen heran, um beispielsweise komplexe Zusammenhänge zwischen verschiedenen Vorlesungsskripten zu erklären. Über das gleiche Menü erhalten Anwender zudem schnellen Zugriff auf Funktionen wie Canvas oder die Bilderstellung. Die Erweiterungen für den AI Mode stehen in den USA ab sofort zur Verfügung, weitere Länder sollen zeitnah folgen.
Benchmark zeigt: Wenn KI-Modellen visuelle Daten fehlen, wird einfach geraten

ProactiveBench testet, ob multimodale Sprachmodelle bei unzureichenden visuellen Informationen um Hilfe bitten. 22 getestete Modelle zeigen kaum proaktives Verhalten. Ein einfaches Reinforcement-Learning-Training weist jedoch einen möglichen Ausweg.

Der Artikel Benchmark zeigt: Wenn KI-Modellen visuelle Daten fehlen, wird einfach geraten erschien zuerst auf The Decoder.
OpenAIs Plan: 32 Stunde Woche und »Recht auf KI«

Nano Banana

Kurzfassung
▾

Quellen
▾

Ein neues industriepolitisches Konzept skizziert Maßnahmen für den Übergang in das Zeitalter der Superintelligenz.
Zentrale Forderungen umfassen einen öffentlichen Vermögensfonds, eine 32-Stunden-Woche bei vollem Lohnausgleich und ein grundlegendes Recht auf KI-Zugang.
Um den Wandel abzusichern, verlangt das Papier zudem neue Steuerkonzepte, strikte Audits für hochriskante Modelle und verbindliche Notfallpläne.
Begleitet wird der Vorstoß von einem neuen Förderprogramm in Washington, das Forschern Stipendien und API-Guthaben in Millionenhöhe bietet.

OpenAI: Industrial policy for the Intelligence Age

Die Entwicklung in Richtung Superintelligenz verlangt tiefgreifende wirtschaftliche Eingriffe. Ein neues industriepolitisches Konzept von OpenAI skizziert nun weitreichende Maßnahmen, darunter einen öffentlichen Vermögensfonds, die 32-Stunden-Woche und ein universelles »Recht auf KI«. Neuverteilung des Reichtums Der Zugang zu leistungsstarken Modellen gilt in dem Entwurf als essenzielle Infrastruktur. Ähnlich wie Strom oder das Internet erfordert die Technologie eine garantierte Basisversorgung für alle gesellschaftlichen Schichten. Um die finanziellen Gewinne der Automatisierung gerecht zu verteilen, steht die Gründung eines Public Wealth Fund im Fokus. Dieser Fonds investiert breit in den KI-Sektor. Die Erträge fließen anschließend als direkte Auszahlung an die Bevölkerung. So partizipieren auch Menschen ohne eigenes Startkapital am wirtschaftlichen Aufschwung der Technologie. Anzeige Steuern und Arbeitszeit Die technologische Entwicklung erzwingt gleichzeitig einen Umbau des traditionellen Steuersystems. Wenn der Faktor der menschlichen Arbeit schrumpft, brechen wichtige Einnahmen für die Sozialsysteme weg. Als Ausgleich sieht der Plan vor, vermehrt Kapitalerträge, Unternehmensgewinne und speziell automatisierte Arbeit zu besteuern. Die daraus resultierenden betrieblichen Effizienzgewinne sollen den Angestellten zugutekommen. Das Konzept schlägt konkrete Pilotprojekte für eine 32-Stunden-Woche bei vollem Lohnausgleich vor. Sicherheit und Infrastruktur Der immense Energiebedarf aktueller und kommender Modelle verlangt einen extrem schnellen Ausbau der Stromnetze. Öffentlich-private Partnerschaften übernehmen hierbei idealerweise die Finanzierung und reduzieren bürokratische Hürden. Auf technischer Ebene fordert das Positionspapier strikte Audits. Hochriskante KI-Systeme erfordern unabhängige Vor- und Nachkontrollen durch Einrichtungen wie das Center for AI Standards and Innovation (CAISI). Gleichzeitig müssen fertige Notfallpläne in den Schubladen liegen. Diese greifen ein, falls gefährliche Modelle in die freie Wildbahn gelangen und die Entwickler den Zugriff verlieren. Anzeige Millionen-Förderung für Forscher Die Theorie geht nun den ersten Schritt in Richtung Praxis. Im Mai öffnet dafür ein neuer Workshop in Washington, D.C. seine Türen. Forscher und Entwickler, die auf diesen politischen Ideen aufbauen, erhalten erhebliche finanzielle Unterstützung. Das begleitende Pilotprogramm umfasst Forschungsstipendien von bis zu 100.000 US-Dollar sowie API-Guthaben im Wert von einer Million US-Dollar, die Interessierte ab sofort beantragen können.