Schlagwort: Deep

OpenAIs „Lockdown Mode“ in ChatGPT soll vor Prompt-Angriffen schützen

OpenAI führt einen Lockdown-Mode für ChatGPT ein, der Webzugriff, Deep Research und Agent-Mode deaktiviert, um Datendiebstahl durch Prompt-Injection-Angriffe zu erschweren. Vollständig verhindern kann der Modus solche Angriffe allerdings nicht, er blockiert lediglich den letzten Schritt einer Exfiltrationskette. Prompt Injection bleibt ein ungelöstes Problem.

Der Artikel OpenAIs „Lockdown Mode“ in ChatGPT soll vor Prompt-Angriffen schützen erschien zuerst auf The Decoder.
Deep Research Max: Google stellt neuen KI-Agenten für umfangreiche Internetrecherchen vor

Google Deepmind bringt mit Deep Research Max einen neuen KI-Agenten auf Basis von Gemini 3.1 Pro, der autonome Recherchen über das Web und proprietäre Datenquellen durchführen soll. Über das Model Context Protocol lassen sich erstmals auch Finanzdaten und andere spezialisierte Quellen anbinden.

Der Artikel Deep Research Max: Google stellt neuen KI-Agenten für umfangreiche Internetrecherchen vor erschien zuerst auf The Decoder.
Gemini’s 3 Deep Think Funktion wird deutlich stärker

Nano Banana

Kurzfassung
▾

Quellen
▾

Google hat die „Deep Think“-Funktion von Gemini 3 aktualisiert, um komplexe wissenschaftliche Probleme durch längere Rechenzeiten („Inference-Time-Compute“) besser zu lösen. In spezialisierten Benchmarks wie ARC-AGI-2 und Codeforces übertrifft das Update die Konkurrenzmodelle GPT-5.2 und Claude Opus 4.6 deutlich. Der Fokus liegt nicht auf schnellen Chat-Antworten, sondern auf präziser Logik und Validierung für Forschung und Engineering. Trotz Rekordwerten zeigt der Test „Humanity’s Last Exam“, dass auch die verbesserte KI bei unstrukturierten realen Problemen noch fast 50 Prozent Fehlerquote hat.

Google The Keyword: Advancing science with Gemini 3 Deep Think

Google DeepMind Blog: Accelerating discovery with Gemini Deep Think

Google DeepMind spendiert Gemini 3 Deep Think ein starkes Update, welches spezifisch auf wissenschaftliche und mathematische Problemlösungen ausgelegt ist. Der Fokus liegt auf verstärkten Reasoning-Fähigkeiten für Forschung und Engineering, statt auf schneller Chat-Interaktion. Fokus auf langsames „Denken“ statt schneller Antworten Google positioniert das Update weniger als generellen Modellwechsel, sondern als gezielte Weiterentwicklung der „Deep Think“-Funktionalität innerhalb der Gemini-3-Familie. Technisch basiert dies auf einer intensivierten Nutzung von „Inference-Time-Compute“. Das System investiert mehr Rechenleistung in die Phase der Antwortgenerierung, um Lösungswege intern zu simulieren, zu verwerfen und neu zu bewerten, bevor eine Ausgabe erfolgt. Dieser Ansatz soll vor allem in Disziplinen greifen, die keine Fehler tolerieren. Während klassische Sprachmodelle oft statistisch wahrscheinliche Antworten bevorzugen, erzwingt der aktualisierte Denkmodus eine logische Validierung. Für Nutzer bedeutet dies längere Wartezeiten, die jedoch in Szenarien wie der theoretischen Physik oder der Entwicklung komplexer Algorithmen durch eine höhere Verlässlichkeit gerechtfertigt sein sollen. Anzeige Benchmarks zeigen deutlichen Sprung bei Logik-Aufgaben Die von Google veröffentlichten Leistungsdaten zeigen im direkten Vergleich mit den Konkurrenzmodellen Claude Opus 4.6 und GPT-5.2 teils massive Abstände in spezialisierten Testverfahren. Besonders im Bereich des abstrakten Schlussfolgerns sticht das Modell hervor. Im ARC-AGI-2 Benchmark, der die Fähigkeit zur Lösung neuartiger visueller Rätsel ohne vorheriges Training misst, erreicht Gemini 3 Deep Think einen Wert von 84,6 Prozent. Zum Vergleich: Das Vorgängermodell Gemini 3 Pro Preview lag hier bei lediglich 31,1 Prozent, während der stärkste Mitbewerber Claude Opus 4.6 auf 68,8 Prozent kommt. GPT-5.2 liegt mit 52,9 Prozent deutlich dahinter. + Quelle: Google Auch in der algorithmischen Programmierung setzt Google neue Marken. Auf der Plattform Codeforces erreicht das Modell ein Elo-Rating von 3455. Damit bewegt sich die KI in Sphären, die normalerweise den weltweit besten menschlichen Wettkampf-Programmierern vorbehalten sind. Die Konkurrenz von OpenAI und Anthropic ordnet sich hier im Bereich zwischen 2350 und 2500 Elo-Punkten ein. Bei klassischen akademischen Tests wie der Internationalen Mathematik-Olympiade 2025 bestätigt sich der Trend: Mit einer Lösungsquote von 81,5 Prozent übertrifft Deep Think die Preview-Version (14,3 Prozent) um ein Vielfaches und schlägt auch GPT-5.2 (71,4 Prozent). Quelle: Google Grenzen der Machbarkeit Trotz der hohen Werte in isolierten Testszenarien bleibt die Anwendung in der offenen Welt eine Hürde. Der Benchmark „Humanity’s Last Exam“, der akademisches Reasoning auf Text- und Multimodal-Ebene prüft, zeigt die aktuellen Limits auf. Selbst mit Zugriff auf Tools (Code Execution, Suche) erreicht Gemini 3 Deep Think hier nur 53,4 Prozent. Zwar liegt dieser Wert über dem der Konkurrenz, verdeutlicht aber, dass fast die Hälfte der komplexen Aufgabenstellungen weiterhin ungelöst bleibt. In der Praxis müssen Anwender daher verifizieren, ob die verlängerte Rechenzeit („Thinking Mode“) bei spezifischen Problemen tatsächlich einen qualitativen Mehrwert liefert oder nur die Antwortzeit erhöht.
Google Deepmind rüstet Denkmodus „Gemini 3 Deep Think“ für komplexe Aufgaben auf

Google Deepmind rüstet den „Deep Think“-Modus von Gemini 3 auf und stellt ihn Forschern auch per API zur Verfügung.

Der Artikel Google Deepmind rüstet Denkmodus „Gemini 3 Deep Think“ für komplexe Aufgaben auf erschien zuerst auf The Decoder.
Autonome Forschung: DeepMind stellt Mathematik-Agent Aletheia vor

Nano Banana

Kurzfassung
▾

Quellen
▾

Google DeepMind stellt mit Aletheia einen KI-Agenten vor, der auf dem Reasoning-Modell Gemini Deep Think basiert und autonom forscht. Das System konnte eigenständig eine Generalisierung des Erdős-Problems in der Graphentheorie lösen, indem es Hypothesen aufstellte und verifizierte. Im Gegensatz zu reinen Sprachmodellen nutzt Aletheia iterative Feedback-Schleifen, um Fehler in Beweisen selbstständig zu erkennen und zu korrigieren. Die Technologie zeigt großes Potenzial in formalen Wissenschaften wie der Mathematik, muss sich in experimentellen Feldern aber noch beweisen.

Accelerating Mathematical and Scientific Discovery with Gemini Deep Think (Google DeepMind Blog)

Towards Autonomous Mathematics Research (arXiv:2602.10177)

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques (arXiv:2602.03837)

Aletheia Paper (PDF, GitHub)

Google DeepMind gewährt Einblick in die nächste Ausbaustufe seiner Gemini-Architektur und stellt mit „Aletheia“ einen Agenten für die wissenschaftliche Forschung vor. Das System kombiniert das Reasoning-Modell Gemini Deep Think mit iterativen Prüfschleifen, um mathematische Probleme nicht nur zu bearbeiten, sondern eigenständig neue Lösungswege zu beweisen. Anzeige Vom Assistenten zum Akteur Bisherige Sprachmodelle agierten primär als Wissensdatenbanken oder Code-Assistenten, die auf klare Eingabeaufforderungen reagierten. Mit Gemini Deep Think und dem darauf aufbauenden Agenten-Framework Aletheia verschiebt Google den Fokus auf autonome Problemlösung. Laut den veröffentlichten Preprints (arXiv:2602.10177) ist Aletheia in der Lage, einen Suchraum potenzieller Hypothesen aufzuspannen und diese systematisch abzuarbeiten. Der technische Kern besteht darin, dass das Modell nicht sofort eine Antwort generiert. Stattdessen „denkt“ das System über mehrere Schritte hinweg (Chain-of-Thought), wobei Zwischenergebnisse intern validiert werden. DeepMind demonstriert damit den Übergang von bloßer Mustererkennung hin zu einer rudimentären Form der wissenschaftlichen Methodik: Hypothese aufstellen, Experiment (oder Beweis) durchführen, Ergebnis validieren. + Quelle: Google Praktischer Durchbruch in der Graphentheorie Dass es sich dabei nicht nur um theoretische Konzepte handelt, soll die Lösung einer Generalisierung des „Erdős-Problems 1051“ belegen. Dieses Problem aus dem Bereich der Graphentheorie und Kombinatorik galt lange als offen. Aletheia gelang es laut DeepMind, die relevanten Parameter zu identifizieren und einen formal korrekten Beweis zu konstruieren. Das Ergebnis ist Teil einer Reihe von vier Forschungspapieren, die unter Beteiligung oder ausschließlicher Autorschaft der KI entstanden sind. Dabei nutzte der Agent Feedback-Schleifen. Erzeugte das Modell einen fehlerhaften Beweisansatz, wurde dieser durch integrierte Verifikations-Tools (wie formale Beweiser oder Python-Skripte) als falsch markiert. Der Agent verwarf den Pfad und suchte autonom nach Alternativen, ohne dass ein menschlicher Eingriff nötig war. Anzeige Messbare Effizienzsprünge in Benchmarks Die Überlegenheit des Agenten-Ansatzes gegenüber reinen Modellen spiegelt sich in den von DeepMind veröffentlichten Leistungsdaten wider. Auf dem „IMO-ProofBench Advanced“, der mathematische Aufgaben auf Olympiade-Niveau abbildet, erreicht Aletheia einen Score von über 90 Prozent und setzt sich damit knapp, aber sichtbar vor die fortgeschrittene Version von Gemini Deep Think (Stand Januar 2026). + Quelle: Google Noch drastischer fällt der Unterschied bei akademischen Hochleistungsaufgaben aus. Im „FutureMath Basic“-Benchmark, der Übungen auf Doktorats-Niveau (Ph.D.) umfasst, erzielt Aletheia einen Wert von rund 46 Prozent. Das Vergleichsmodell kommt bei identischem Rechenaufwand an diesem Punkt der Kurve lediglich auf gut 22 Prozent. Selbst mit massiv erhöhtem Ressourceneinsatz (Inference-Time Compute) bleibt das reine Gemini-Deep-Think-Modell unter der 40-Prozent-Marke, was die Effizienz der agentischen Architektur unterstreicht. + Quelle: Google Mathematik als idealer Testraum Die Leistung ist beachtlich, muss jedoch technisch eingeordnet werden. Mathematik und theoretische Informatik bieten als geschlossene Systeme mit klar definierten Wahrheitswerten (wahr/falsch) ideale Bedingungen für solche KI-Systeme. Ein Beweis lässt sich algorithmisch leichter überprüfen als die Plausibilität einer soziologischen Studie. Es bleibt abzuwarten, wie effizient Aletheia in weniger formalisierten Disziplinen wie der Biologie oder Chemie arbeitet, wo „Ground Truth“ oft experimentelle Daten und nicht nur logische Konsistenz erfordert. Google positioniert Deep Think und Aletheia als Werkzeuge zur Beschleunigung der Wissenschaft. Die aktuellen Ergebnisse zeigen, dass KI in nischenspezifischen, formalen Bereichen bereits das Niveau menschlicher Forscher erreichen kann – die Generalisierung auf breitere wissenschaftliche Felder steht jedoch noch aus.
OpenAI mit starken Änderungen für die Deep Research Funktion

Nano Banana

Kurzfassung
▾

Quellen
▾

OpenAI stellt die technische Basis von Deep Research auf das leistungsfähigere Modell GPT-5.2 um. Nutzer können nun externe Apps via Connectors verbinden und spezifische Webseiten als exklusive Quellen definieren. Der Rechercheprozess lässt sich in Echtzeit steuern und die Ergebnisse werden in einer neuen Vollbildansicht präsentiert.

OpenAI (X): Deep research powered by GPT-5.2

OpenAI (X): Feature-Liste Deep Research

OpenAI Help Center: ChatGPT Release Notes

OpenAI: Introducing deep research

OpenAI Help Center: GPT-5.2 in ChatGPT

OpenAI hat ein umfangreiches Update für die Deep-Research-Funktion in ChatGPT veröffentlicht. Die automatisierte Recherche-Umgebung basiert ab sofort auf dem Modell GPT-5.2 und ermöglicht erstmals die direkte Anbindung externer Applikationen sowie eine gezielte Steuerung laufender Suchprozesse. Modellwechsel als technische Basis Kern der Aktualisierung ist die Umstellung des zugrundeliegenden Modells auf GPT-5.2. Bislang nutzte der „Deep Research“-Modus – ein Agenten-System, das eigenständig komplexe Suchaufträge im Web durchführt und synthetisiert – eine modifizierte Version der Vorgängergeneration. Mit dem Wechsel auf GPT-5.2 verspricht der Hersteller eine signifikant höhere Logik-Leistung bei der Verknüpfung disparater Informationen. In der Praxis soll dies die Fehlerquote bei der Zusammenfassung technischer oder wissenschaftlicher Quellen reduzieren. Während frühere Versionen dazu neigten, bei widersprüchlichen Quellen Details zu halluzinieren, soll die neue Architektur den Kontext besser gewichten. Anzeige Erweiterte Quellensteuerung und App-Integration Funktional markiert das Update einen Schritt weg vom reinen Web-Crawler hin zu einem integrativen Recherche-Werkzeug. Anwender können nun spezifische Webseiten definieren, auf die sich die Recherche beschränken soll („Site-Specific Search“). Dies ist besonders relevant für Szenarien, in denen nur verifizierte Fachportale oder interne Dokumentationen als Wissensbasis dienen dürfen. Zusätzlich führt OpenAI „App Connectors“ ein. Diese Schnittstellen erlauben es dem System, nicht nur öffentliche Webdaten, sondern auch Informationen aus verknüpften Drittanbieter-Anwendungen in den Recherchebericht einzubeziehen. Dies deutet auf eine tiefere Integration in bestehende Software-Ökosysteme hin, wirft jedoch zwangsläufig Fragen zum Datenschutz und zur Zugriffskontrolle auf, die Nutzer vor der Aktivierung prüfen sollten. + Quelle: OpenAI Interaktion in Echtzeit und Darstellung Die Benutzerführung wurde dahingehend überarbeitet, dass der Rechercheprozess transparenter abläuft. Anstatt auf ein fertiges Ergebnis zu warten, können Nutzer den Fortschritt nun in Echtzeit verfolgen und intervenieren. Erkennt das System beispielsweise eine falsche Fährte, lässt sich der Prozess unterbrechen, um mit neuen Parametern oder Quellenangaben nachzusteuern. Abschließend ändert sich die Präsentation der Ergebnisse: Die generierten Reports werden nun in einer Vollbildansicht dargestellt, was die Lesbarkeit umfangreicher Textmengen und Tabellen auf Desktop-Monitoren verbessern soll. Mit diesen Anpassungen zielt OpenAI offensichtlich darauf ab, das Tool stärker in professionellen Arbeitsabläufen zu verankern, wo Präzision und Nachvollziehbarkeit Vorrang vor Geschwindigkeit haben. + Quelle: OpenAI
Deep Research in ChatGPT bekomt großes GPT-5-Update

OpenAI betreibt Deep Research in ChatGPT jetzt mit GPT-5.2 und bringt neue Funktionen wie gezielte Webseitensuche und Echtzeit-Kontrolle. Verlässlicher wird die KI-Recherche dadurch nicht unbedingt.

Der Artikel Deep Research in ChatGPT bekomt großes GPT-5-Update erschien zuerst auf The Decoder.
Perplexity überholt OpenAI und Google bei „Deep Research“

Perplexity

Kurzfassung
▾

Quellen
▾

Perplexity veröffentlicht Advanced Deep Research und schlägt damit Google und OpenAI in relevanten Benchmarks deutlich. Der neue Open-Source-Benchmark DRACO misst die Leistung von KI-Agenten erstmals anhand realer Arbeitsabläufe. Nutzer des Max-Abos erhalten sofortigen Zugriff auf die präzisere Recherche-Funktion, die auf Anthropic Opus 4.5 basiert.

Perplexity Blog: Evaluating Deep Research Performance

X: Perplexity kündigt offenen Benchmark an

X: Perplexity erläutert Aufbau von DRACO

Perplexity hat heute ein massives Update für seine Deep Research Funktion ausgerollt und setzt sich damit an die Spitze der KI-Recherche-Tools. Interne und externe Benchmarks zeigen, dass die neue „Advanced“-Version die Konkurrenz von OpenAI und Google in puncto Genauigkeit und Verlässlichkeit hinter sich lässt. Anzeige Neuer Spitzenreiter im Labor Der Markt für KI-gestützte Recherche ist hart umkämpft, doch Perplexity liefert jetzt harte Zahlen. Im eigens entwickelten DRACO-Benchmark erreicht die neue Version von Perplexity Deep Research einen Score von 67,15 Prozent. Damit liegt das Tool deutlich vor Gemini Deep Research (58,97 Prozent) und den OpenAI-Modellen o3 (52,06 Prozent) sowie o4-mini (41,94 Prozent). Die technische Basis für diesen Sprung ist prominent. Für jede Suchanfrage in der Advanced-Version nutzt Perplexity das Modell „Opus 4.5“ von Anthropic, eingebettet in ein optimiertes Agenten-Framework. Selbst im direkten Vergleich mit reinen Modellen wie Googles DeepMind-Systemen oder OpenAIs GPT-5.2 (XHigh) behauptet sich der Agent mit 79,5 Prozent im Google DeepMind Deep Search QA Test an der Spitze. + + Quelle: Perplexity Stärken in der Praxisanwendung Ein Blick auf die Detailauswertung zeigt, wo der Unterschied liegt. Während Gemini bei der Präsentationsqualität fast gleichauf liegt, dominiert Perplexity bei der Faktentreue und der Tiefe der Analyse. Besonders in kritischen Sektoren wie Finanzen, Recht und Technologie liefert der Agent präzisere Ergebnisse als die Wettbewerber. Das System wurde darauf trainiert, nicht nur Fakten zu finden, sondern diese logisch aufzubereiten. Die „Citation Quality“, also die Güte der Quellenangaben, liegt mit 76 Prozent deutlich über den Werten von OpenAI o3 (60,4 Prozent). Für Nutzer, die verlässliche Quellen für Entscheidungen benötigen, ist das der entscheidende Faktor. + + Quelle: Perplexity DRACO: Ein neuer Maßstab für Agenten Um diese Leistung messbar zu machen, hat Perplexity den DRACO-Benchmark (Deep Research Accuracy, Completeness, and Objectivity) veröffentlicht. Dieser Test unterscheidet sich von bisherigen akademischen Standards, da er echte Arbeitsabläufe simuliert. Der Fokus liegt auf realen Szenarien. Statt isolierter Faktenabfragen müssen die Agenten komplexe Aufgaben in Bereichen wie Medizin oder Finanzanalyse lösen. Perplexity stellt diesen Benchmark als Open Source auf Hugging Face zur Verfügung, um Transparenz zu schaffen und den Wettbewerb zu objektivieren. + Quelle: Perplexity Verfügbarkeit und Zugriff Das Update wird ab sofort für Nutzer des „Max“-Abonnements freigeschaltet. Diese erhalten Zugriff auf höhere Nutzungslimits. Für „Pro“-Nutzer erfolgt der Rollout schrittweise. Damit zwingt Perplexity die Konkurrenz zum Handeln: Wer im professionellen Umfeld recherchieren will, kommt an diesem Update aktuell kaum vorbei. Anzeige
Google veröffentlicht Gemini 3 „Deep Think“ für Gemini-Abonnenten

Google AI hat einen aktualisierten „Deep Think“-Modus für Abonnenten von Google AI Ultra in der Gemini-App veröffentlicht.

Der Artikel Google veröffentlicht Gemini 3 „Deep Think“ für Gemini-Abonnenten erschien zuerst auf The Decoder.
Das „beste Open-Weight-LLM eines US-Unternehmens“ ist ein Deepseek-Finetune

Das nach eigener Aussage „beste Open-Weight-LLM eines US-Unternehmens“ ist ein Deepseek-Finetune. Deep Cogito hat Cogito-v2.1-671B veröffentlicht, das auf dem Deepseek-Basismodell vom November 2024 basiert (vermutlich R1-Lite, Deepseek-V3-Base wurde erst im Dezember veröffentlicht) und intern nachtrainiert wurde. Das Modell konkurriert laut Deep Cogito mit führenden geschlossenen und offenen Modellen bei Branchenbenchmarks und übertrifft andere US-amerikanische offene […]

Der Artikel Das „beste Open-Weight-LLM eines US-Unternehmens“ ist ein Deepseek-Finetune erschien zuerst auf The Decoder.