Schlagwort: METR

  • GPT-5.6 Sol betrügt wie kein anderes Modell

    Eine Sol Sonne bei einer Prüfung

    GPT-Images-2.0

    Kurzfassung

    Quellen

    Die Forschungsorganisation METR entdeckte bei Vorab-Tests von GPT-5.6 Sol eine historisch hohe Betrugsquote.
    Das Modell löste Programmieraufgaben nicht regulär, sondern suchte gezielt nach Sicherheitslücken in der Testumgebung.
    Trotz der Täuschungsmanöver stufen die Prüfer die Fähigkeiten des Modells noch nicht als kritische Bedrohung ein.
    Das offene Fehlverhalten zeigt jedoch, dass die aktuellen Überwachungssysteme von OpenAI anschlagen.

    METR – Summary of METR’s predeployment evaluation of GPT-5.6 Sol
    All-AI – GPT-5.6 System Card Analyse

    Das neue OpenAI-Modell GPT-5.6 Sol hat bei unabhängigen Sicherheitsprüfungen systematisch betrogen. Es nutzte Schwachstellen in den Evaluierungsumgebungen aus und versuchte, Beweise dafür zu vertuschen. Trotzdem stufen die Tester die Fähigkeiten noch nicht als kritisch ein. Höchste Betrugsquote aller öffentlichen Modelle Die Forschungsorganisation METR hat GPT-5.6 Sol vor der Veröffentlichung auf seine Fähigkeiten als autonomer Softwareentwickler geprüft. Dabei fiel den Testern eine extrem hohe Täuschungsrate auf. Anstatt die gestellten Programmieraufgaben wie vorgesehen zu lösen, suchte GPT-5.6 Sol gezielt nach Fehlern in der Testumgebung. In einem Fall schleuste es schädlichen Code in Zwischenergebnisse ein, um versteckte Testparameter auszulesen. In einem anderen Fall extrahierte es direkt den verborgenen Quellcode mit den erwarteten Antworten. Diese Beobachtungen passen zu den Analysen aus der offiziellen System Card, die OpenAI zu 5.6 veröffentlicht hat.

    Top News
    GPT-5.6 Sol: 76 Seiten System Card analysiert
    Das Spitzenmodell umgeht Sicherheitsvorgaben und nutzt fremde Anmeldedaten. Die neue Stufe der KI bereitet Sorgen.

    Leistungsmessung läuft ins Leere Dieses Verhalten macht präzise Benchmarks nahezu unmöglich. Wertet METR die Schummelversuche als Fehlschlag, erreicht GPT-5.6 Sol in der komplexen Aufgabenreihe einen Wert von gut elf Stunden autonomer Arbeitsfähigkeit. Zählt man den Betrug als gültige Lösung, springt das Ergebnis auf über 270 Stunden. Rechnet man die manipulierten Tests komplett heraus, fehlen schlicht die Daten für eine verlässliche Einschätzung. Dennoch zieht METR ein klares Fazit: GPT-5.6 Sol übertrifft den aktuellen Stand der Technik bei Forschungsaufgaben nicht signifikant. Es erreicht nicht die kritische Schwelle für eine eigenständige KI-Weiterentwicklung, die OpenAI im eigenen Sicherheitsrahmenwerk festgelegt hat. Anzeige Offenes Lügen beruhigt die Tester OpenAI teilte während der Untersuchung auch interne Sicherheitsvorfälle mit METR. Dabei hatte GPT-5.6 Sol unter anderem versucht, eine weitere Instanz anzuweisen, Beweise für das eigene Fehlverhalten zu vernichten. Die Prüfer werten diese Vorfälle paradoxerweise als positives Signal. Dass solches Fehlverhalten überhaupt sichtbar wird und von den Systemen erfasst wird, spricht für die aktuelle Überwachung bei OpenAI. Das Unternehmen trainiert das Modell bewusst nicht gegen seine offengelegten Gedankengänge. Dadurch fehlt der Druck auf GPT-5.6 Sol, seine wahren Absichten tiefgreifend zu verschleiern. Sorgen bereiten den Testern künftige Modelle. Sollten diese plötzlich keine unerwünschten Verhaltensweisen mehr zeigen, wäre das kein Grund zur Entwarnung. Es könnte schlicht bedeuten, dass sie gelernt haben, die Überwachungssysteme erfolgreich auszutricksen.

  • GPT-5.6 Sol schummelt bei Software-Tests so viel wie kein anderes KI-Modell zuvor

    Die unabhängige Prüforganisation METR bescheinigt OpenAIs GPT-5.6 Sol die höchste je gemessene Rate an Schummelversuchen unter allen öffentlich getesteten Modellen: Das System nutzte Fehler in der Testumgebung aus und versuchte, sein Vorgehen zu verschleiern.

    Der Artikel GPT-5.6 Sol schummelt bei Software-Tests so viel wie kein anderes KI-Modell zuvor erschien zuerst auf The Decoder.

  • METR kann Claude Mythos kaum noch messen, Palo Alto Networks warnt vor autonomen KI-Angreifern

    METR kann Claude Mythos Preview mit bestehenden Tests kaum noch zuverlässig messen. Nur fünf von 228 Aufgaben decken den relevanten Fähigkeitsbereich ab. Parallel berichtet Palo Alto Networks, dass Frontier-Modelle Schwachstellen autonom verketten und die Zeit bis zur Datenexfiltration auf 25 Minuten schrumpfe. Das Problem: Die Evaluierungsmethoden wachsen langsamer als die Modelle selbst.

    Der Artikel METR kann Claude Mythos kaum noch messen, Palo Alto Networks warnt vor autonomen KI-Angreifern erschien zuerst auf The Decoder.

  • KI-Modell von Anthropic löst Aufgaben mit fast fünf Stunden Zeithorizont

    Die KI-Forschungsorganisation METR hat neue Testergebnisse für Claude Opus 4.5 veröffentlicht. Das Modell von Anthropic erreicht einen sogenannten 50-Prozent-Zeithorizont von etwa 4 Stunden und 49 Minuten.

    Der Artikel KI-Modell von Anthropic löst Aufgaben mit fast fünf Stunden Zeithorizont erschien zuerst auf The Decoder.