Schlagwort: Research

  • KI-Agenten können sich erstmals durch Hacking selbst replizieren

    Palisade Research zeigt in einer Testumgebung, dass KI-Agenten fremde Computer hacken, sich darauf kopieren und so Ketten bilden können. Innerhalb eines Jahres stieg die Erfolgsrate von 6 auf 81 Prozent. Die Forscher erwarten, dass verbleibende Barrieren mit zunehmenden Hacking-Fähigkeiten der Modelle fallen.

    Der Artikel KI-Agenten können sich erstmals durch Hacking selbst replizieren erschien zuerst auf The Decoder.

  • Weil KI-Modelle absichtlich schlecht arbeiten: Forscher suchen Wege aus der Sandbagging-Falle

    Eine Studie von Forschenden aus dem MATS-Programm, Redwood Research und Anthropic untersucht ein Sicherheitsproblem, das mit immer fähigeren KI-Systemen relevanter wird: sogenanntes „Sandbagging“, bei dem ein Modell seine wahren Fähigkeiten absichtlich zurückhält und scheinbar adäquate, aber unterdurchschnittliche Arbeit liefert.

    Der Artikel Weil KI-Modelle absichtlich schlecht arbeiten: Forscher suchen Wege aus der Sandbagging-Falle erschien zuerst auf The Decoder.

  • Deep Research Max: Google stellt neuen KI-Agenten für umfangreiche Internetrecherchen vor

    Google Deepmind bringt mit Deep Research Max einen neuen KI-Agenten auf Basis von Gemini 3.1 Pro, der autonome Recherchen über das Web und proprietäre Datenquellen durchführen soll. Über das Model Context Protocol lassen sich erstmals auch Finanzdaten und andere spezialisierte Quellen anbinden.

    Der Artikel Deep Research Max: Google stellt neuen KI-Agenten für umfangreiche Internetrecherchen vor erschien zuerst auf The Decoder.

  • Qualcomm will Reasoning-KI auf Smartphones bringen

    Smartphone mit Qualcomm-Q-Logo und abstrahierten Schaltkreisen auf vierfarbigem Hintergrund symbolisiert lokale Inferenz

    Qualcomm AI Research hat ein modulares System entwickelt, das Reasoning-fähige Sprachmodelle auf Smartphones bringen soll. Dafür werden die wortreichen Denkprozesse der Modelle um den Faktor 2,4 komprimiert.

    Der Artikel Qualcomm will Reasoning-KI auf Smartphones bringen erschien zuerst auf The Decoder.

  • Deep Research in ChatGPT bekomt großes GPT-5-Update

    OpenAI betreibt Deep Research in ChatGPT jetzt mit GPT-5.2 und bringt neue Funktionen wie gezielte Webseitensuche und Echtzeit-Kontrolle. Verlässlicher wird die KI-Recherche dadurch nicht unbedingt.

    Der Artikel Deep Research in ChatGPT bekomt großes GPT-5-Update erschien zuerst auf The Decoder.

  • Perplexity überholt OpenAI und Google bei „Deep Research“

    Viele Schichten in der Umwelt

    Perplexity

    Kurzfassung

    Quellen

    Perplexity veröffentlicht Advanced Deep Research und schlägt damit Google und OpenAI in relevanten Benchmarks deutlich. Der neue Open-Source-Benchmark DRACO misst die Leistung von KI-Agenten erstmals anhand realer Arbeitsabläufe. Nutzer des Max-Abos erhalten sofortigen Zugriff auf die präzisere Recherche-Funktion, die auf Anthropic Opus 4.5 basiert.

    Perplexity Blog: Evaluating Deep Research Performance

    X: Perplexity kündigt offenen Benchmark an

    X: Perplexity erläutert Aufbau von DRACO

    Perplexity hat heute ein massives Update für seine Deep Research Funktion ausgerollt und setzt sich damit an die Spitze der KI-Recherche-Tools. Interne und externe Benchmarks zeigen, dass die neue „Advanced“-Version die Konkurrenz von OpenAI und Google in puncto Genauigkeit und Verlässlichkeit hinter sich lässt. Anzeige Neuer Spitzenreiter im Labor Der Markt für KI-gestützte Recherche ist hart umkämpft, doch Perplexity liefert jetzt harte Zahlen. Im eigens entwickelten DRACO-Benchmark erreicht die neue Version von Perplexity Deep Research einen Score von 67,15 Prozent. Damit liegt das Tool deutlich vor Gemini Deep Research (58,97 Prozent) und den OpenAI-Modellen o3 (52,06 Prozent) sowie o4-mini (41,94 Prozent). Die technische Basis für diesen Sprung ist prominent. Für jede Suchanfrage in der Advanced-Version nutzt Perplexity das Modell „Opus 4.5“ von Anthropic, eingebettet in ein optimiertes Agenten-Framework. Selbst im direkten Vergleich mit reinen Modellen wie Googles DeepMind-Systemen oder OpenAIs GPT-5.2 (XHigh) behauptet sich der Agent mit 79,5 Prozent im Google DeepMind Deep Search QA Test an der Spitze. + + Quelle: Perplexity Stärken in der Praxisanwendung Ein Blick auf die Detailauswertung zeigt, wo der Unterschied liegt. Während Gemini bei der Präsentationsqualität fast gleichauf liegt, dominiert Perplexity bei der Faktentreue und der Tiefe der Analyse. Besonders in kritischen Sektoren wie Finanzen, Recht und Technologie liefert der Agent präzisere Ergebnisse als die Wettbewerber. Das System wurde darauf trainiert, nicht nur Fakten zu finden, sondern diese logisch aufzubereiten. Die „Citation Quality“, also die Güte der Quellenangaben, liegt mit 76 Prozent deutlich über den Werten von OpenAI o3 (60,4 Prozent). Für Nutzer, die verlässliche Quellen für Entscheidungen benötigen, ist das der entscheidende Faktor. + + Quelle: Perplexity DRACO: Ein neuer Maßstab für Agenten Um diese Leistung messbar zu machen, hat Perplexity den DRACO-Benchmark (Deep Research Accuracy, Completeness, and Objectivity) veröffentlicht. Dieser Test unterscheidet sich von bisherigen akademischen Standards, da er echte Arbeitsabläufe simuliert. Der Fokus liegt auf realen Szenarien. Statt isolierter Faktenabfragen müssen die Agenten komplexe Aufgaben in Bereichen wie Medizin oder Finanzanalyse lösen. Perplexity stellt diesen Benchmark als Open Source auf Hugging Face zur Verfügung, um Transparenz zu schaffen und den Wettbewerb zu objektivieren. + Quelle: Perplexity Verfügbarkeit und Zugriff Das Update wird ab sofort für Nutzer des „Max“-Abonnements freigeschaltet. Diese erhalten Zugriff auf höhere Nutzungslimits. Für „Pro“-Nutzer erfolgt der Rollout schrittweise. Damit zwingt Perplexity die Konkurrenz zum Handeln: Wer im professionellen Umfeld recherchieren will, kommt an diesem Update aktuell kaum vorbei. Anzeige

  • Basecamp Research kartiert eine Million Spezies für KI-gestützte Medikamente

    Das britische Unternehmen Basecamp Research hat gemeinsam mit Forschern von Nvidia und Microsoft KI-Modelle entwickelt, die aus einer Datenbank von über einer Million Spezies potenzielle neue Therapien gegen Krebs und multiresistente Bakterien generieren sollen. Die Forscher selbst mahnen jedoch zur Vorsicht.

    Der Artikel Basecamp Research kartiert eine Million Spezies für KI-gestützte Medikamente erschien zuerst auf The Decoder.

  • Weniger ist mehr: Einzelne KI-Modelle können vernetzte KI-Agenten schlagen

    Eine umfangreiche Studie von Google Research, Google DeepMind und MIT widerlegt die verbreitete Annahme, dass mehr KI-Agenten automatisch bessere Ergebnisse liefern. Die Forscher identifizieren präzise Bedingungen, unter denen Multi-Agenten-Systeme helfen oder schaden.

    Der Artikel Weniger ist mehr: Einzelne KI-Modelle können vernetzte KI-Agenten schlagen erschien zuerst auf The Decoder.

  • Neues Lernmodell von Google soll katastrophales Vergessen in KI-Systemen stoppen

    Google Research hat ein neues Lernparadigma namens „Nested Learning“ entwickelt, das KI-Modelle als verschachtelte Optimierungsprobleme betrachtet. Der Ansatz soll das Problem des katastrophalen Vergessens reduzieren oder sogar lösen und kontinuierliches Lernen ermöglichen.

    Der Artikel Neues Lernmodell von Google soll katastrophales Vergessen in KI-Systemen stoppen erschien zuerst auf The Decoder.

  • Google verbessert NotebookLM mit Deep Research und mehr

    Google startet Deep Research in NotebookLM. Mit Deep Research durchsucht das Tool laut Google Hunderte Webseiten und erstellt daraus einen strukturierten Bericht mit kommentierten Quellen.

    Der Artikel Google verbessert NotebookLM mit Deep Research und mehr erschien zuerst auf The Decoder.