Schlagwort: Befehle

Prompt Injections: So werden KI-Agenten laut OpenAI sicher

Nano Banana

Kurzfassung
▾

Quellen
▾

Autonome KI-Agenten sind durch ihre Anbindung an externe Schnittstellen stark durch Prompt Injections gefährdet.
Versteckte Befehle in Texten oder Webseiten können die Modelle dazu zwingen, unautorisierte Aktionen auszuführen.
Ein einzelnes Sprachmodell bietet keinen ausreichenden Schutz gegen diese Art der Manipulation.
Entwickler müssen stattdessen eine Systemarchitektur mit strikten Zugriffsrechten und kontinuierlicher Überwachung aufbauen.

OpenAI: Designing agents to resist prompt injection

OpenAI: Prompt injections

Autonome KI-Agenten übernehmen zunehmend komplexe Aufgaben und greifen dabei auf echte Anwendungen zu. Das macht sie anfällig für Prompt Injections, bei denen Angreifer über versteckte Textbefehle die Kontrolle übernehmen. Ein mehrschichtiges Sicherheitskonzept schließt diese Schwachstelle. Angriffsziel Schnittstelle Der klassische Chatbot beantwortet in erster Linie Fragen auf einem Bildschirm. Ein KI-Agent hingegen agiert selbstständig und nutzt dafür verschiedene APIs. Genau dieser direkte Zugriff auf E-Mail-Programme, Kalender oder Unternehmensdatenbanken schafft eine völlig neue Angriffsfläche. Wenn ein solcher Agent externe Informationen ausliest und verarbeitet, können sich in diesen Texten bösartige Anweisungen verbergen. Angreifer verstecken diese Befehle in harmlos wirkenden Webseiten oder Dokumenten. Diese sogenannten Prompt Injections zielen darauf ab, die ursprünglichen Systemvorgaben der Entwickler zu überschreiben. Sobald die KI die manipulierten Zeilen verarbeitet, ändert sie ihr Verhalten. Der Agent ignoriert seine eigentliche Aufgabe und führt stattdessen unautorisierte Befehle aus. Das reicht vom unbemerkten Weiterleiten vertraulicher E-Mails bis hin zur Manipulation von ganzen Datenbanken. Anzeige Mehrschichtige Verteidigung als Lösung Ein KI-Modell allein ist nach aktuellem Stand der Technik niemals vollständig gegen solche manipulierten Eingaben immun. Entwickler müssen die Sicherheit der Agenten stattdessen direkt in der Systemarchitektur verankern. Ein effektives Konzept setzt daher auf ein umfassendes, mehrschichtiges Verteidigungsnetz. Die Basis bildet ein gezieltes Fine-Tuning der Modelle. Die KI lernt durch dieses Training, den internen System-Prompts immer die absolute Priorität einzuräumen. Von außen zugeführte Textelemente dürfen diese Grundregeln unter keinen Umständen überstimmen. Flankiert wird diese Maßnahme durch das Prinzip der minimalen Rechte. Ein Agent erhält von der Software immer nur exakt die Zugriffsrechte, die er für den aktuellen Arbeitsschritt benötigt. Ein System, das nur Daten lesen soll, bekommt demnach keine Schreibrechte. Strikte Trennung von Inhalten Ein weiterer entscheidender Baustein ist die strikte Isolierung von externen Informationen. Der Agent behandelt eingelesene Texte aus dem Internet konsequent als reine Daten und niemals als ausführbaren Code. Zusätzlich zwingen strukturierte Ausgaben die KI dazu, Ergebnisse nur in fest definierten Formaten zurückzugeben. Den Abschluss bildet eine kontinuierliche Überwachung der laufenden Prozesse. Algorithmen analysieren die Ein- und Ausgaben in Echtzeit und schlagen bei Abweichungen sofort Alarm. Entwickler müssen diese architektonischen Schutzmechanismen von der ersten Zeile Code an mitdenken. Eine nachgelagerte Absicherung reicht bei der Komplexität moderner Agenten nicht mehr aus. Das System bleibt auf diese Weise auch bei anspruchsvollen Aufgaben stabil und wehrt Angriffsversuche frühzeitig ab.
OpenAI macht KI-Modelle immun gegen Hacker

Nano Banana

Kurzfassung
▾

Quellen
▾

OpenAI hat mit der IH-Challenge eine neue Trainingsmethode vorgestellt, die Sprachmodelle speziell gegen Prompt Injections und externe Manipulationen absichert.
Durch eine strenge Befehlshierarchie lernt die KI, Systemanweisungen zu priorisieren, und löst Konflikte mit Nutzer-Prompts in 95 Prozent der Fälle richtig.
Ein interner Test mit dem Modell GPT-5 Mini-R zeigt, dass die Abwehr gegen Jailbreaks drastisch steigt, während die logischen und mathematischen Fähigkeiten stabil bleiben.
Gleichzeitig verweigert das trainierte System harmlose Anfragen deutlich seltener, verliert jedoch im direkten Chat-Vergleich minimal an Beliebtheit.

OpenAI – Instruction Hierarchy Challenge

OpenAI – The Instruction Hierarchy Paper (PDF)

OpenAI präsentiert mit der sogenannten „IH-Challenge“ eine neue Trainingsmethode, die Sprachmodelle effektiv vor Manipulationen schützt. Ein interner Testlauf mit dem modifizierten Modell GPT-5 Mini-R zeigt, wie eine strenge Befehlshierarchie bösartige Eingaben blockiert, ohne die Leistungsfähigkeit im Alltag zu beeinträchtigen. Versteckte Befehle blockieren Sprachmodelle sind bei der Anbindung an das Internet oft anfällig für sogenannte Prompt Injections. Angreifer verstecken dabei unsichtbare Befehle in fremden Texten oder auf Webseiten. Liest die KI diese Daten ein, überschreiben die bösartigen Befehle die eigentlichen Anweisungen der Programmierer. + Quelle: OpenAI Ein typisches Szenario zeigt sich bei der Nutzung von Kalender-Schnittstellen. Sucht das Modell im Auftrag des Nutzers nach dem nächsten Termin, liefert ein manipulierter Kalendereintrag plötzlich den Text „Zugriff gewährt“ zurück. Normale Modelle übernehmen diesen Fremdtext blind und geben ihn aus. Ein mit der neuen Methode trainiertes System erkennt den Betrugsversuch hingegen sofort. Es blockiert die fehlerhafte Anweisung und hält sich strikt an das reguläre Format für Termine. Die neue Hierarchie der Anweisungen Der hohe Schutz basiert auf dem neuen Trainingsdatensatz der IH-Challenge. Dieses Prinzip bringt der KI von Grund auf bei, welche Befehle absoluten Vorrang haben. Systemvorgaben der Entwickler stehen dabei immer an oberster Stelle. Nutzer-Prompts oder Daten aus externen Quellen ordnet das Modell in der Priorität deutlich tiefer ein. Konflikte zwischen Entwickler-Regeln und Nutzer-Eingaben löst das interne Testmodell GPT-5 Mini-R nun in 95 Prozent der Fälle korrekt. Das entspricht einer starken Verbesserung von 12 Prozentpunkten im Vergleich zum unmodifizierten Basismodell. Anzeige Starke Abwehr gegen Identitätsdiebstahl Die internen Sicherheitstests belegen klare Fortschritte bei der Abwehr von gezielten Angriffen. Besonders bei Versuchen, das Modell zur Annahme einer falschen Identität zu zwingen („Impersonation“), steigt der Robustheits-Wert enorm an. Er springt von einem sehr anfälligen Wert von 0,23 auf sichere 0,90. Auch bei manuellen Angriffen durch Sicherheitsexperten zeigt sich das Testmodell widerstandsfähig. Beim menschlichen Red-Teaming klettert der Wert von 0,73 auf 0,90. Automatisierte Attacken wehrt das System mit einem Score von 0,97 nahezu perfekt ab. + Quelle: OpenAI Sicherheit auf höchstem Niveau In fast allen kritischen Sicherheitskategorien erreicht das System nun die volle Punktzahl von 1,00. Dazu gehören heikle Bereiche wie Hassrede, illegale Inhalte, Gewalt und Biologie. Das reguläre Modell lag hier zuvor noch zwischen 0,91 und 0,98. Ein bekanntes Problem stark gesicherter Modelle ist häufig eine gewisse Übervorsichtigkeit. Oft verweigern sie die Antwort auf völlig harmlose Fragen. Dieses sogenannte Overrefusal konnte OpenAI mit der neuen Trainingsmethode jedoch deutlich reduzieren. Bei der entsprechenden Metrik für fälschliche Verweigerungen steigt der Wert von 0,79 auf den Bestwert von 1,00. + Quelle: OpenAI Stabile Logik mit leichten Kompromissen Die allgemeine Intelligenz der KI leidet kaum unter den neuen, strengen Sicherheitsvorgaben. Im komplexen GPQA-Diamond-Test hält das Modell seinen hohen Wert von 0,83. Bei mathematischen Aufgaben im AIME 2024 Benchmark gibt es sogar eine minimale Steigerung von 0,93 auf 0,94. Nutzer müssen lediglich bei der allgemeinen Beliebtheit der Antworten kleine Abstriche machen. Die direkte Gewinnrate im Chat-Vergleich sinkt leicht von 0,71 auf 0,66. Der allgemeine Preference Score fällt von 0,46 auf 0,40. Das Experiment zeigt insgesamt, dass eine hohe Sicherheit bei Sprachmodellen ohne spürbare Leistungseinbußen in der Logik realisierbar ist. + Quelle: OpenAI
KI-Browser Comet führt geheime Befehle aus

KI-Browser Comet führt geheime Befehle aus Unsichtbare Anweisungen, echte Gefahr – wie sicher ist künstliche Intelligenz im Web? Kurzfassung | Andreas Becker, 26.08.25
gpt-image-1 | All-AI.de EINLEITUNG Im neuen KI-Browser „Comet“ von Perplexity wurde eine gravierende Schwachstelle entdeckt. Die integrierte künstliche Intelligenz ließ sich durch versteckte Texte auf Webseiten dazu bringen, sensible Aufgaben auszuführen – ganz ohne Zustimmung des Nutzers. Entdeckt wurde das Problem von den Entwicklern des Konkurrenz-Browsers Brave. Obwohl die Lücke inzwischen geschlossen ist, zeigt der Fall, wie anfällig KI-gesteuerte Browser für neue Angriffsformen sein können. NEWS Versteckte Befehle statt sichtbare Inhalte Im Gegensatz zu herkömmlichen Browsern analysiert Comet Webseiten aktiv mit einer eingebauten KI. Sie soll dem Nutzer helfen, Inhalte zusammenzufassen oder Aktionen auszuführen. Genau das wurde ihr zum Verhängnis. In einem Test versteckte Brave Befehle in einem Reddit-Beitrag – für das menschliche Auge unsichtbar. Als Comet die Seite analysierte, führte der Assistent diese Anweisungen wie echte Befehle aus. So gelang es der KI, auf das Perplexity-Konto des Nutzers zuzugreifen, die hinterlegte E-Mail-Adresse auszulesen und sogar einen Einmalcode aus einem geöffneten Gmail-Tab weiterzuleiten. Der Browser handelte dabei wie ein echter Nutzer. Herkömmliche Sicherheitsmaßnahmen, etwa zwischen verschiedenen Webseiten, griffen nicht mehr. Gefahr erkannt – aber noch nicht gebannt Perplexity erklärte, man habe die Lücke inzwischen geschlossen. Brave weist allerdings darauf hin, dass ähnliche Angriffsmethoden weiterhin möglich sein könnten. Denn das Grundproblem liegt tiefer: Die KI unterscheidet nicht zuverlässig zwischen echtem Nutzerauftrag und manipulierten Seiteninhalten. Wenn beides vermischt wird, können unsichtbare Texte zum Sicherheitsrisiko werden. Auch andere Sicherheitsforscher fanden Schwachstellen: So ließ sich Comet in Tests dazu bringen, mit gefälschten Online-Shops zu interagieren oder unsichere Links zu öffnen – ohne die nötige Vorsicht. Was sichere KI-Browser künftig brauchen Der Fall zeigt, dass künstliche Intelligenz im Browser zwar praktisch, aber auch gefährlich sein kann. Um solche Angriffe zu verhindern, sollten Browser-KIs Webseiten grundsätzlich als unsicher einstufen. Außerdem müssten sie bei kritischen Aktionen wie Formularen oder Käufen stets eine Bestätigung vom Nutzer einholen. Und: Der sogenannte Agentenmodus – also das automatische Handeln der KI – sollte nur dann aktiv sein, wenn der Nutzer ihn bewusst einschaltet. Bis dahin bleibt der Einsatz solcher Funktionen ein Risiko. Denn Angreifer brauchen heute keine Programmierkenntnisse mehr – schon ein clever formulierter Satz kann reichen, um eine KI in die Irre zu führen. DEIN VORTEIL – DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
Im KI-Browser Comet wurde eine schwerwiegende Sicherheitslücke entdeckt, bei der versteckte Texte gefährliche Befehle auslösen konnten.
Die Schwachstelle erlaubte es Angreifern, sensible Nutzerdaten auszulesen oder weiterzuleiten – ohne Wissen des Nutzers.
Obwohl die Lücke behoben wurde, warnt Brave vor ähnlichen Risiken durch unsichtbare Manipulationen im Web.
Experten fordern strengere Sicherheitsmechanismen und klare Nutzerkontrollen bei KI-gestützten Browsern.
QUELLEN
Brave
The Register
BleepingComputer
Tom’s Hardware

Schlagwort: Befehle

Prompt Injections: So werden KI-Agenten laut OpenAI sicher

OpenAI macht KI-Modelle immun gegen Hacker

KI-Browser Comet führt geheime Befehle aus