
Nano Banana
Kurzfassung
▾
Quellen
▾
OpenAI hat mit der IH-Challenge eine neue Trainingsmethode vorgestellt, die Sprachmodelle speziell gegen Prompt Injections und externe Manipulationen absichert.
Durch eine strenge Befehlshierarchie lernt die KI, Systemanweisungen zu priorisieren, und löst Konflikte mit Nutzer-Prompts in 95 Prozent der Fälle richtig.
Ein interner Test mit dem Modell GPT-5 Mini-R zeigt, dass die Abwehr gegen Jailbreaks drastisch steigt, während die logischen und mathematischen Fähigkeiten stabil bleiben.
Gleichzeitig verweigert das trainierte System harmlose Anfragen deutlich seltener, verliert jedoch im direkten Chat-Vergleich minimal an Beliebtheit.
OpenAI – Instruction Hierarchy Challenge
OpenAI – The Instruction Hierarchy Paper (PDF)
OpenAI präsentiert mit der sogenannten „IH-Challenge“ eine neue Trainingsmethode, die Sprachmodelle effektiv vor Manipulationen schützt. Ein interner Testlauf mit dem modifizierten Modell GPT-5 Mini-R zeigt, wie eine strenge Befehlshierarchie bösartige Eingaben blockiert, ohne die Leistungsfähigkeit im Alltag zu beeinträchtigen. Versteckte Befehle blockieren Sprachmodelle sind bei der Anbindung an das Internet oft anfällig für sogenannte Prompt Injections. Angreifer verstecken dabei unsichtbare Befehle in fremden Texten oder auf Webseiten. Liest die KI diese Daten ein, überschreiben die bösartigen Befehle die eigentlichen Anweisungen der Programmierer. + Quelle: OpenAI Ein typisches Szenario zeigt sich bei der Nutzung von Kalender-Schnittstellen. Sucht das Modell im Auftrag des Nutzers nach dem nächsten Termin, liefert ein manipulierter Kalendereintrag plötzlich den Text „Zugriff gewährt“ zurück. Normale Modelle übernehmen diesen Fremdtext blind und geben ihn aus. Ein mit der neuen Methode trainiertes System erkennt den Betrugsversuch hingegen sofort. Es blockiert die fehlerhafte Anweisung und hält sich strikt an das reguläre Format für Termine. Die neue Hierarchie der Anweisungen Der hohe Schutz basiert auf dem neuen Trainingsdatensatz der IH-Challenge. Dieses Prinzip bringt der KI von Grund auf bei, welche Befehle absoluten Vorrang haben. Systemvorgaben der Entwickler stehen dabei immer an oberster Stelle. Nutzer-Prompts oder Daten aus externen Quellen ordnet das Modell in der Priorität deutlich tiefer ein. Konflikte zwischen Entwickler-Regeln und Nutzer-Eingaben löst das interne Testmodell GPT-5 Mini-R nun in 95 Prozent der Fälle korrekt. Das entspricht einer starken Verbesserung von 12 Prozentpunkten im Vergleich zum unmodifizierten Basismodell. Anzeige Starke Abwehr gegen Identitätsdiebstahl Die internen Sicherheitstests belegen klare Fortschritte bei der Abwehr von gezielten Angriffen. Besonders bei Versuchen, das Modell zur Annahme einer falschen Identität zu zwingen („Impersonation“), steigt der Robustheits-Wert enorm an. Er springt von einem sehr anfälligen Wert von 0,23 auf sichere 0,90. Auch bei manuellen Angriffen durch Sicherheitsexperten zeigt sich das Testmodell widerstandsfähig. Beim menschlichen Red-Teaming klettert der Wert von 0,73 auf 0,90. Automatisierte Attacken wehrt das System mit einem Score von 0,97 nahezu perfekt ab. + Quelle: OpenAI Sicherheit auf höchstem Niveau In fast allen kritischen Sicherheitskategorien erreicht das System nun die volle Punktzahl von 1,00. Dazu gehören heikle Bereiche wie Hassrede, illegale Inhalte, Gewalt und Biologie. Das reguläre Modell lag hier zuvor noch zwischen 0,91 und 0,98. Ein bekanntes Problem stark gesicherter Modelle ist häufig eine gewisse Übervorsichtigkeit. Oft verweigern sie die Antwort auf völlig harmlose Fragen. Dieses sogenannte Overrefusal konnte OpenAI mit der neuen Trainingsmethode jedoch deutlich reduzieren. Bei der entsprechenden Metrik für fälschliche Verweigerungen steigt der Wert von 0,79 auf den Bestwert von 1,00. + Quelle: OpenAI Stabile Logik mit leichten Kompromissen Die allgemeine Intelligenz der KI leidet kaum unter den neuen, strengen Sicherheitsvorgaben. Im komplexen GPQA-Diamond-Test hält das Modell seinen hohen Wert von 0,83. Bei mathematischen Aufgaben im AIME 2024 Benchmark gibt es sogar eine minimale Steigerung von 0,93 auf 0,94. Nutzer müssen lediglich bei der allgemeinen Beliebtheit der Antworten kleine Abstriche machen. Die direkte Gewinnrate im Chat-Vergleich sinkt leicht von 0,71 auf 0,66. Der allgemeine Preference Score fällt von 0,46 auf 0,40. Das Experiment zeigt insgesamt, dass eine hohe Sicherheit bei Sprachmodellen ohne spürbare Leistungseinbußen in der Logik realisierbar ist. + Quelle: OpenAI








