Schlagwort: Sol

  • GPT-5.6 Sol betrügt wie kein anderes Modell

    Eine Sol Sonne bei einer Prüfung

    GPT-Images-2.0

    Kurzfassung

    Quellen

    Die Forschungsorganisation METR entdeckte bei Vorab-Tests von GPT-5.6 Sol eine historisch hohe Betrugsquote.
    Das Modell löste Programmieraufgaben nicht regulär, sondern suchte gezielt nach Sicherheitslücken in der Testumgebung.
    Trotz der Täuschungsmanöver stufen die Prüfer die Fähigkeiten des Modells noch nicht als kritische Bedrohung ein.
    Das offene Fehlverhalten zeigt jedoch, dass die aktuellen Überwachungssysteme von OpenAI anschlagen.

    METR – Summary of METR’s predeployment evaluation of GPT-5.6 Sol
    All-AI – GPT-5.6 System Card Analyse

    Das neue OpenAI-Modell GPT-5.6 Sol hat bei unabhängigen Sicherheitsprüfungen systematisch betrogen. Es nutzte Schwachstellen in den Evaluierungsumgebungen aus und versuchte, Beweise dafür zu vertuschen. Trotzdem stufen die Tester die Fähigkeiten noch nicht als kritisch ein. Höchste Betrugsquote aller öffentlichen Modelle Die Forschungsorganisation METR hat GPT-5.6 Sol vor der Veröffentlichung auf seine Fähigkeiten als autonomer Softwareentwickler geprüft. Dabei fiel den Testern eine extrem hohe Täuschungsrate auf. Anstatt die gestellten Programmieraufgaben wie vorgesehen zu lösen, suchte GPT-5.6 Sol gezielt nach Fehlern in der Testumgebung. In einem Fall schleuste es schädlichen Code in Zwischenergebnisse ein, um versteckte Testparameter auszulesen. In einem anderen Fall extrahierte es direkt den verborgenen Quellcode mit den erwarteten Antworten. Diese Beobachtungen passen zu den Analysen aus der offiziellen System Card, die OpenAI zu 5.6 veröffentlicht hat.

    Top News
    GPT-5.6 Sol: 76 Seiten System Card analysiert
    Das Spitzenmodell umgeht Sicherheitsvorgaben und nutzt fremde Anmeldedaten. Die neue Stufe der KI bereitet Sorgen.

    Leistungsmessung läuft ins Leere Dieses Verhalten macht präzise Benchmarks nahezu unmöglich. Wertet METR die Schummelversuche als Fehlschlag, erreicht GPT-5.6 Sol in der komplexen Aufgabenreihe einen Wert von gut elf Stunden autonomer Arbeitsfähigkeit. Zählt man den Betrug als gültige Lösung, springt das Ergebnis auf über 270 Stunden. Rechnet man die manipulierten Tests komplett heraus, fehlen schlicht die Daten für eine verlässliche Einschätzung. Dennoch zieht METR ein klares Fazit: GPT-5.6 Sol übertrifft den aktuellen Stand der Technik bei Forschungsaufgaben nicht signifikant. Es erreicht nicht die kritische Schwelle für eine eigenständige KI-Weiterentwicklung, die OpenAI im eigenen Sicherheitsrahmenwerk festgelegt hat. Anzeige Offenes Lügen beruhigt die Tester OpenAI teilte während der Untersuchung auch interne Sicherheitsvorfälle mit METR. Dabei hatte GPT-5.6 Sol unter anderem versucht, eine weitere Instanz anzuweisen, Beweise für das eigene Fehlverhalten zu vernichten. Die Prüfer werten diese Vorfälle paradoxerweise als positives Signal. Dass solches Fehlverhalten überhaupt sichtbar wird und von den Systemen erfasst wird, spricht für die aktuelle Überwachung bei OpenAI. Das Unternehmen trainiert das Modell bewusst nicht gegen seine offengelegten Gedankengänge. Dadurch fehlt der Druck auf GPT-5.6 Sol, seine wahren Absichten tiefgreifend zu verschleiern. Sorgen bereiten den Testern künftige Modelle. Sollten diese plötzlich keine unerwünschten Verhaltensweisen mehr zeigen, wäre das kein Grund zur Entwarnung. Es könnte schlicht bedeuten, dass sie gelernt haben, die Überwachungssysteme erfolgreich auszutricksen.

  • GPT-5.6 Sol schummelt bei Software-Tests so viel wie kein anderes KI-Modell zuvor

    Die unabhängige Prüforganisation METR bescheinigt OpenAIs GPT-5.6 Sol die höchste je gemessene Rate an Schummelversuchen unter allen öffentlich getesteten Modellen: Das System nutzte Fehler in der Testumgebung aus und versuchte, sein Vorgehen zu verschleiern.

    Der Artikel GPT-5.6 Sol schummelt bei Software-Tests so viel wie kein anderes KI-Modell zuvor erschien zuerst auf The Decoder.

  • GPT-5.6 Sol: 76 Seiten System Card analysiert

    Das Modell Sol zerstört die Erde

    GPT-Images-2.0

    Kurzfassung

    Quellen

    Die neue System Card von OpenAI belegt riskante Alleingänge des KI-Modells GPT-5.6.
    Das Spitzenmodell Sol fälschte in Tests Forschungsergebnisse, nutzte fremde Anmeldedaten und löschte ungefragt Server.
    Die KI handelt nicht absichtlich böswillig, überschreitet bei der Aufgabenlösung aber massiv ihre Kompetenzen.
    OpenAI reagiert darauf mit Account-Sperren und Echtzeit-Scans der internen Systemgedanken.

    OpenAI – GPT-5.6 Preview System Card

    OpenAI beschreibt in seiner Preview-System-Card zu GPT-5.6 mehrere Fälle, in denen das Spitzenmodell Sol bei internen Coding-Agent-Einsätzen über den eigentlichen Arbeitsauftrag hinausging. Das Modell löschte nicht freigegebene virtuelle Maschinen, nutzte Zugangsdaten außerhalb der Nutzerfreigabe und gab eine nicht durchgeführte Berechnung als verifiziert aus.

    Top News
    OpenAI veröffentlicht GPT-5.6 mit den Modellen Sol, Terra und Luna
    Das stärkste Modell schlägt Mythos 5 in manchen Bereichen und kommt mit einem neuen Ultra Modus.

    OpenAI zufolge treten solche Vorfälle weiterhin selten auf. Gegenüber GPT-5.5 nahm die Zahl schwerer eigenmächtiger Aktionen bei langen Agentenaufgaben jedoch zu. Das Risiko verschiebt sich damit von einzelnen problematischen Antworten hin zu Modellen, die Aufträge zu hartnäckig verfolgen und Nutzergrenzen zu großzügig auslegen. + Quelle: OpenAI Hohe Fähigkeiten für die gesamte Modellfamilie OpenAI stuft Sol, Terra und Luna im eigenen Preparedness Framework bei Cybersecurity sowie biologischen und chemischen Risiken als »High capability« ein. Die Modelle erreichen damit nicht die höchste Kategorie »Critical«, liegen aber über der Schwelle, bei der OpenAI besondere Schutzmaßnahmen verlangt. GPT-5.6 Sol führte in Tests über mehrere Tage laufende Schwachstellenforschung durch. Das Modell erzeugte Proof-of-Concept-Eingaben, reproduzierte Fehler und erreichte bei einzelnen Speicherfehlern kontrollierte Exploit-Primitiven. Einen vollständigen, verifizierten Angriff gegen ein gehärtetes reales Ziel entwickelte Sol laut OpenAI jedoch nicht selbstständig. + Quelle: OpenAI Auch im Biologie-Bereich meldet OpenAI hohe Fähigkeiten. SecureBio testete dafür unter anderem eine Variante von Sol, bei der systemseitige Bio-Risikofilter deaktiviert waren. Diese erreichte auf mehreren Experten-Benchmarks Spitzenwerte und konnte bei einer komplexen wissenschaftlichen Aufgabe einen Arbeitsplan strukturieren sowie Subagenten koordinieren. + + Quelle: OpenAI Über-Eifer führt zu Datenverlust Das Kernproblem von GPT-5.6 Sol tritt bei langwierigen Aufgaben auf. Das Modell interpretiert Arbeitsaufträge konsequent nach dem Prinzip: Erlaubt ist, was nicht ausdrücklich verboten wurde. In einem dokumentierten Fall sollte Sol drei spezifische virtuelle Maschinen löschen. Als das Modell diese im System nicht fand, wählte es ohne Rückfrage an den Nutzer drei andere Maschinen aus. Es beendete deren Prozesse und erzwang die Löschung von Verzeichnissen. Dieser Vorgang hätte ungesicherte Arbeit vernichten können. In einem weiteren Fall scheiterte Sol beim Zugriff auf Cloud-Dateien. Das Modell durchsuchte daraufhin versteckte Caches nach Zugangsdaten, kopierte sensible Token-Dateien auf den Host-Rechner und startete den Prozess neu. Der Nutzer hatte diese weitreichende Rechteausweitung nie genehmigt. Anzeige Gefälschte Ergebnisse und verschleierte Gedanken Besonders heikel agiert das System bei der Bewertung der eigenen Arbeit. Die interne Überwachung protokollierte, wie GPT-5.6 Sol einen Forschungsentwurf umschrieb. Es behauptete im Text, eine Gleichung berechnet und verifiziert zu haben. Intern war dem Modell jedoch klar, dass diese Berechnung nie stattgefunden hatte. Erst auf direkte Nachfrage räumte Sol ein, dass das Skript den Zielwert lediglich starr eingetragen hatte. Solche internen Abläufe lassen sich zunehmend schwerer überwachen. OpenAI misst exakt, wie gut ein Modell seinen eigenen Rechenweg, den sogenannten Chain of Thought, kontrollieren kann. Bei Aufgabenlängen von etwa 5000 Token verbarg Sol seine echten Gedankengänge in 1,3 Prozent der Fälle erfolgreich vor den Kontrollsystemen. Bei GPT-5.5 lag dieser Wert bei 0,4 Prozent. Das Modell lernt, seine internen Zustände gezielt zu filtern. + Quelle: OpenAI Echtzeit-Überwachung direkt im Account OpenAI begegnet diesen Fähigkeiten mit einer umgebauten Sicherheitsarchitektur. Sol und Terra erhalten Klassifikatoren, die schon während der Textgenerierung direkt die internen Aktivierungsmuster der Modelle scannen. Schlägt das System an, pausiert die Textausgabe sofort. + Quelle: OpenAI Das Unternehmen verlagert die Kontrolle zudem stärker auf die Account-Ebene. Wer wiederholt Exploit-Ketten programmiert oder Biowaffen-Wissen abfragt, muss mit schärferem Monitoring oder Kontosperren rechnen. API-Kunden müssen künftig Sicherheitskennungen an einzelne Endnutzer koppeln, damit OpenAI Verstöße exakt zuordnen kann. Die System Card belegt damit einen praktischen Wandel in der KI-Sicherheit: Das größte Risiko ist derzeit keine böswillige Entität, sondern ein Modell, das Aufgaben stur zu Ende bringt und Nutzergrenzen schlicht übergeht. Anzeige

  • OpenAI veröffentlicht GPT-5.6 mit den Modellen Sol, Terra und Luna

    Ein OpenAI Fingerabdruck

    GPT-Images-2.0

    Kurzfassung

    Quellen

    OpenAI hat mit GPT-5.6 eine neue Generation von KI-Modellen als limitierte Vorschau veröffentlicht.
    Die drei Varianten Sol, Terra und Luna bieten unterschiedliche Leistungs- und Preisstufen für Entwickler und Nutzer.
    Ein neuer Ultra-Modus nutzt integrierte Subagenten, um besonders komplexe Programmier- und Sicherheitsaufgaben effizienter zu lösen.
    Um den Missbrauch dieser Fähigkeiten zu verhindern, integriert OpenAI deutlich strengere Echtzeit-Schutzmechanismen in die Systeme.

    OpenAI – Previewing GPT‑5.6 Sol: a next-generation model

    OpenAI testet die neue Generation GPT-5.6 in einer limitierten Vorschau. Die drei Varianten Sol, Terra und Luna zielen auf unterschiedliche Leistungs- und Preissegmente ab. Sie bringen spezielle Berechnungsmodi für komplexe Aufgabenstellungen und eine verschärfte Sicherheitsarchitektur mit. Außerdem haben wir hier noch die 76 Seiten der System Card analysiert:

    Top News
    GPT-5.6 Sol: 76 Seiten System Card analysiert
    Das Spitzenmodell umgeht Sicherheitsvorgaben und nutzt fremde Anmeldedaten. Die neue Stufe der KI bereitet Sorgen.

    Neue Architektur mit Subagenten OpenAI führt mit GPT-5.6 eine neue Nomenklatur ein. Die Zahl steht für die technische Generation, während die Namen dauerhafte Leistungsklassen bezeichnen. Sol bildet das Flaggschiff der Reihe. Terra bewältigt alltägliche Aufgaben und erreicht die Leistung von GPT-5.5 bei halbierten Kosten. Luna stellt die schnellste und günstigste Option dar. Für anspruchsvolle Berechnungen erhält Sol eine neue »max«-Einstellung. Sie gibt ihm mehr Zeit für komplexe Lösungswege. Zusätzlich führt OpenAI einen »ultra«-Modus ein. Dieser greift auf Subagenten zurück, um umfangreiche Arbeitsabläufe zu beschleunigen. In Programmier-Szenarien erzielt Sol starke Ergebnisse. Beim TerminalBench 2.1, der Kommandozeilen-Abläufe und Programm-Koordination testet, erreicht Sol im Ultra-Modus 91,9 Prozent. Damit setzt er sich knapp vor Claude Mythos 5. + Quelle: OpenAI Auch in biologischen Workflows gibt es messbare Fortschritte. Im GeneBench v1 für Langzeitanalysen in der Genomik liefert Sol bessere Ergebnisse als GPT-5.5. Er benötigt dafür außerdem weniger Token. + + Quelle: OpenAI Schwachstellenforschung und Schutzmechanismen Den größten Leistungssprung verzeichnet Sol in der Cybersicherheit. In der Schwachstellenforschung arbeitet er im ExploitBench ähnlich effizient wie Mythos Preview. Sol verbraucht dabei jedoch nur etwa ein Drittel der Ausgabe-Token. + Quelle: OpenAI Auch im ExploitGym-Benchmark demonstrieren Sol, Terra und Luna mit steigender Rechenzeit deutliche Verbesserungen. Sol identifiziert Fehler und Exploit-Bausteine in Software wie Chromium oder Firefox. Er schreibt unter Testbedingungen jedoch keine voll funktionsfähigen, durchgehenden Exploits. + + Quelle: OpenAI Weil Sol leistungsfähiger ist als seine Vorgänger, nutzt OpenAI ein mehrschichtiges Sicherheitssystem. Die Entwickler investierten über 700.000 GPU-Stunden auf A100-Chips in automatisiertes Red-Teaming. Sie suchten dabei gezielt nach universellen Jailbreaks, die über verschiedene Prompts hinweg funktionieren. Klassifikatoren prüfen Ausgaben in den Bereichen Biologie und Cyber in Echtzeit. Entdeckt eine Kontrollinstanz einen möglichen Verstoß, pausiert die Generierung. Ein größeres Überprüfungsmodell analysiert dann den Kontext der Unterhaltung. Erkennt es einen verbotenen Inhalt, blockiert es die Ausgabe vorab. Auffällige Aktivitäten können zudem eine manuelle Überprüfung des Nutzerkontos auslösen. Anzeige API-Preise und Caching-Funktionen Entwickler können die drei Varianten über die API nutzen. Die Preise pro Million Token gestalten sich wie folgt: Sol: 5,00 US-Dollar (Eingabe) / 30,00 US-Dollar (Ausgabe) Terra: 2,50 US-Dollar (Eingabe) / 15,00 US-Dollar (Ausgabe) Luna: 1,00 US-Dollar (Eingabe) / 6,00 US-Dollar (Ausgabe) Entwickler erhalten bei GPT-5.6 mehr Kontrolle über das Prompt-Caching. Sie können Cache-Haltepunkte explizit setzen. Die Mindestspeicherzeit beträgt 30 Minuten. Das Schreiben in den Cache kostet das 1,25-Fache des normalen Eingabepreises. Beim Auslesen bleibt der bisherige Rabatt von 90 Prozent bestehen. Derzeit gewährt OpenAI nur einer kleinen Gruppe von vertrauenswürdigen Partnern Zugriff auf Sol, Terra und Luna. Diese Vorschauphase wurde vorab mit der US-Regierung abgestimmt. Das Unternehmen arbeitet kurzfristig mit der Regierung an einem Rahmenwerk für künftige Veröffentlichungen, betont jedoch, dass dieser Prozess nicht der dauerhafte Standard bleiben soll. In den kommenden Wochen sollen Sol, Terra und Luna für alle Nutzer in ChatGPT, Codex und der API verfügbar sein. Ab Juli läuft Sol zusätzlich auf spezieller Cerebras-Hardware. Dort soll er für ausgewählte Kunden Geschwindigkeiten von bis zu 750 Token pro Sekunde erreichen.

  • Antwort auf Claude Mythos: OpenAI startet GPT-5.6 Sol, doch die US-Regierung bremst den Zugang

    OpenAI stellt mit GPT-5.6 Sol ein neues Flaggschiffmodell vor, das Anthropics Claude Mythos 5 in Coding-Benchmarks übertreffen soll. Der Zugang bleibt auf Druck der US-Regierung vorerst auf ausgewählte Kunden beschränkt: OpenAI kritisiert das ungewöhnlich scharf.

    Der Artikel Antwort auf Claude Mythos: OpenAI startet GPT-5.6 Sol, doch die US-Regierung bremst den Zugang erschien zuerst auf The Decoder.