Schlagwort: Antworten

Googles KI-Suche liegt laut Analyse in neun von zehn Fällen richtig

„KI kann Fehler machen, bitte Antworten überprüfen“ steht unter jeder KI-generierten Suchantwort von Google. Doch wie häufig diese Fehler tatsächlich auftreten, wurde bisher kaum systematisch untersucht.

Der Artikel Googles KI-Suche liegt laut Analyse in neun von zehn Fällen richtig erschien zuerst auf The Decoder.
Der BullshitBench entlarvt die Schwächen von OpenAI und Google

Nano Banana

Kurzfassung
▾

Quellen
▾

Der Benchmark BullshitBench v2 testet, ob KI-Modelle bei unsinnigen oder fehlerhaften Anfragen widersprechen.
Die meisten aktuellen Sprachmodelle fallen durch und erfinden stattdessen selbstbewusst falsche Antworten.
Modelle von Anthropic und Alibaba schneiden sehr gut ab, während Systeme von Google und OpenAI schwächeln.
Sogenannte Reasoning-Modelle verschlechtern das Ergebnis sogar, da sie um jeden Preis eine Lösung für den fehlerhaften Prompt berechnen wollen.

BullshitBench v2 Explorer (Interactive Viewer)

GitHub Repo (Dataset, Skripte, Ergebnisse)

X-Post von Peter Gostev zu BullshitBench v2

Zahlreiche aktuelle KI-Sprachmodelle fallen auf absichtlich unsinnige Eingaben herein. Der gerade aktualisierte Test „BullshitBench v2“ zeigt, dass die meisten Systeme fehlerhafte Anfragen nicht ablehnen, sondern völlig selbstbewusst falsche Antworten erfinden. Dabei gibt es beachtliche Qualitätsunterschiede zwischen den Herstellern. Der Test für logischen Unsinn Der Benchmark prüft gezielt, wie KI-Modelle auf unmögliche oder absichtlich fehlerhafte Szenarien reagieren. Die Testfragen decken verschiedene Fachbereiche ab, darunter Programmierung, Medizin, Recht, Finanzen und Physik. Ein gutes System muss den inhaltlichen Fehler im Prompt erkennen und der Eingabe widersprechen. Insgesamt wurden für die zweite Version des Tests über 70 Modellvarianten mit 100 neuen Fragen konfrontiert. Über alle Fachbereiche hinweg bleibt die Fehlerquote hoch. Die Systeme erkennen den Unsinn in medizinischen Fragen nicht besser als in reinen Programmieraufgaben. Anzeige Klare Sieger und Verlierer Die Auswertung der Testergebnisse zeichnet ein klares Bild der aktuellen Marktlandschaft. Modelle der Claude-Reihe von Anthropic, insbesondere Versionen wie Claude Sonnet 4.6, dominieren das Feld und weisen fehlerhafte Eingaben sehr zuverlässig ab. Auch das Open-Source-Modell Qwen3.5 von Alibaba liefert hier starke Ergebnisse. Die prominenten Systeme von OpenAI und Google fallen im direkten Vergleich deutlich ab. Modelle wie Gemini 3.1 Pro oder GPT-5.3 Codex landen im Mittelfeld oder sogar auf den hinteren Plätzen. Sie neigen stark dazu, den falschen Prämissen des Nutzers zu folgen und unbrauchbare Antworten zu generieren. + Quelle: petergpt.github.io Die Falle der Denkpause Eine überraschende Erkenntnis betrifft die sogenannten Reasoning-Modelle. Diese KI-Systeme nutzen vor der eigentlichen Textausgabe Rechenzeit für einen internen Lösungsweg, messbar in Reasoning-Tokens. Die Daten zeigen einen negativen Zusammenhang auf: Je mehr Tokens ein Modell für das Nachdenken aufwendet, desto seltener erkennt es den fehlerhaften Prompt. Die Systeme verfangen sich offensichtlich in ihren eigenen Lösungsversuchen. Sie versuchen unter allen Umständen, die Anfrage zu beantworten, anstatt einen logischen Schritt zurückzutreten und die Grundannahme des Nutzers infrage zu stellen. + Quelle: petergpt.github.io Stagnation bei neuen Versionen Der Blick auf das Veröffentlichungsdatum der getesteten KI-Modelle offenbart ein generelles Problem in der Entwicklung. Die Fähigkeit, auf unsinnige Prompts mit Ablehnung zu reagieren, verbessert sich im Branchendurchschnitt nicht. Während Anthropic diese Eigenschaft mit jedem neuen Release kontinuierlich optimiert, zeigen die Modelle der Konkurrenz fast durchgehend eine Stagnation. Ein aktuelles Sprachmodell fällt in diesem speziellen Leistungstest somit oft genauso leicht auf eine unlogische Frage herein wie ein Modell aus dem vergangenen Jahr. Dieser Trend deutet darauf hin, dass viele Entwickler ihren Fokus derzeit auf andere Bewertungskriterien legen. + + Quelle: petergpt.github.io Anzeige
Auch neue LLMs wie GPT-5.2 und Claude 4.6 verlieren bei langen Chats massiv an Leistung

Wer länger mit einem KI-Chatbot spricht, bekommt schlechtere Antworten. Daran hat sich auch mit neueren Modellen wenig geändert.

Der Artikel Auch neue LLMs wie GPT-5.2 und Claude 4.6 verlieren bei langen Chats massiv an Leistung erschien zuerst auf The Decoder.
KI benachteiligt Nutzer mit schwachem Englisch

Nano Banana

Kurzfassung
▾

Quellen
▾

Eine aktuelle Studie des MIT belegt, dass führende KI-Sprachmodelle bestimmte Nutzergruppen systematisch benachteiligen.
Besonders Personen mit geringerer Bildung oder schwachen Englischkenntnissen erhalten häufiger fehlerhafte Antworten und ungerechtfertigte Ablehnungen.
Die Algorithmen reproduzieren menschliche Vorurteile aus ihren Trainingsdaten und werten linguistisch schwache Prompts intern ab.
Entwickler stehen nun vor der komplexen Aufgabe, diese tiefgreifenden Verzerrungen durch gezieltes Fine-Tuning und bereinigte Datensätze zu beheben.

arXiv – LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users (Abstract)

MIT News – Study: AI chatbots provide less-accurate information to vulnerable users

arXiv – LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users (PDF)

Führende Sprachmodelle liefern Personen mit geringerer Bildung oder schwachen Englischkenntnissen systematisch unzuverlässigere Antworten. Eine aktuelle Untersuchung des Massachusetts Institute of Technology (MIT) belegt nun, dass sich Genauigkeit und Wahrheitsgehalt der generierten Texte bei diesen vulnerablen Gruppen messbar verschlechtern. Die Algorithmen werten linguistisch fehlerhafte Prompts intern ab. Anzeige Systematischer Leistungsabfall bei bestimmten Anwendern Eine detaillierte Untersuchung der etablierten generativen KI-Systeme offenbart erhebliche Qualitätsunterschiede, die stark vom demografischen Hintergrund des jeweiligen Nutzers abhängen. Die Auswertungen umfassen große Open-Source-Modelle sowie proprietäre Systeme, die gezielt auf ihre Genauigkeit, den Wahrheitsgehalt und die Häufigkeit von ungerechtfertigten Antwortverweigerungen getestet wurden. Die Ergebnisse zeigen deutlich auf: Die KI-Modelle arbeiten überproportional fehlerhaft, wenn die textlichen Anfragen von Personen mit niedrigem formalen Bildungsabschluss oder ohne US-Herkunft stammen. Besonders drastisch fällt der qualitative Leistungsabfall aus, wenn mehrere dieser Faktoren direkt in einem einzigen Prompt zusammenfließen. Sobald die Eingaben in fehlerhaftem Englisch verfasst sind oder eine extrem reduzierte Syntax aufweisen, verarbeiten die Modelle den Kontext schlechter und generieren häufiger inkorrekte Fakten. Auch die sogenannte Halluzinationsrate steigt bei derartigen Prompts signifikant an, da die Modelle die eigentliche Intention der Nutzer fehldeuten. + Quelle: https://arxiv.org/abs/2406.17737 – Kontrollgruppe (Grau), Hohe Bildung, Muttersprachler (Hellgrün), Hohe Bildung, Zweitsprache (Rosa), Niedrige Bildung, Muttersprachler (Dunkelgrün), Niedrige Bildung (Rot). Ein Spiegelbild menschlicher Voreingenommenheit Die Ursache für diese messbare Ungleichbehandlung liegt fest verankert in der grundlegenden Architektur sowie den gigantischen Trainingsdaten der Sprachmodelle. Die KI-Systeme reproduzieren auf algorithmischer Ebene schlichtweg bekannte soziokognitive Vorurteile, die in der menschlichen Gesellschaft tief verwurzelt sind. In der Sprachwissenschaft ist bereits lange dokumentiert, dass Muttersprachler Personen mit linguistischen Schwächen oder unkonventioneller Ausdrucksweise oft unbewusst als weniger kompetent einschätzen. Die Systeme haben exakt dieses Muster aus Milliarden von Textbausteinen im Internet extrahiert und werten formal schwächere Eingaben bei der Token-Verarbeitung automatisch ab. Die KI stuft die Relevanz der Anfrage intern herab und generiert in der Folge qualitativ minderwertige oder schlichtweg irreführende Antworten. Entwickler stehen nun vor der komplexen Herausforderung, diese tiefgreifenden technischen Verzerrungen durch ein verbessertes Alignment, spezifisches Fine-Tuning und bereinigte Datensätze zu korrigieren. Bis die Anbieter entsprechende Mechanismen tief in die Architektur der Modelle integrieren, bleibt die ausgegebene Informationsqualität für die betroffenen Nutzergruppen faktisch eingeschränkt. Anzeige
Neues ChatGPT-Update soll Antworten sachlicher und relevanter machen

OpenAI aktualisiert GPT-5.2 Instant mit besseren Antworten. Instant ist das Modell, das in ChatGPT immer dann zum Einsatz kommt, wenn kein Reasoning nötig ist.

Der Artikel Neues ChatGPT-Update soll Antworten sachlicher und relevanter machen erschien zuerst auf The Decoder.
Perplexity Model Council nutzt drei Top-KI-Modelle zusammen

Perplexity

Kurzfassung
▾

Quellen
▾

Perplexity führt das Feature „Model Council“ für Max-Nutzer ein, das Antworten von GPT-5.2, Claude Opus und Gemini 3 Pro kombiniert. Ein übergeordnetes Chair-Modell analysiert die Ergebnisse auf Übereinstimmungen sowie Widersprüche und fasst diese übersichtlich zusammen. Ziel ist die Minimierung von KI-Halluzinationen und eine höhere Datensicherheit für professionelle Recherche-Zwecke. Die Funktion ist ab sofort im Web verfügbar und bietet separate Sektionen für einzigartige Erkenntnisse der jeweiligen Modelle.

Perplexity Blog – Introducing Model Council

Datasor – Perplexity: Model Council

X (Twitter) – Introducing Model Council in Perplexity

Perplexity führt mit dem „Model Council“ ein Feature für Max-Nutzer ein, das Antworten von drei führenden KI-Modellen bündelt und synthetisiert. Ein übergeordnetes „Chair-Modell“ analysiert dabei Übereinstimmungen und Widersprüche, um Halluzinationen zu minimieren und die Recherche-Tiefe signifikant zu erhöhen. Synthese durch digitales Gremium Das neue Feature ändert die Art und Weise, wie komplexe Suchanfragen verarbeitet werden. Anstatt sich auf die Ausgabe einer einzelnen KI zu verlassen, fragt das System im Hintergrund simultan drei Schwergewichte ab: GPT-5.2 Thinking, Claude Opus 4.6 und Gemini 3 Pro. Die Innovation liegt hierbei nicht im parallelen Abruf, sondern in der automatischen Auswertung. Ein sogenanntes „Chair-Modell“ fungiert als Moderator, liest die drei unterschiedlichen Antworten und erstellt daraus einen konsolidierten Bericht. Anzeige Strukturierte Analyse von Abweichungen Die Ergebnisse werden dem Nutzer nicht als unübersichtliche Textwand, sondern in klar definierten Sektionen präsentiert. Das System filtert explizit nach „Unique Discoveries“, also Erkenntnissen, die nur eines der Modelle gefunden hat. + Quelle: Perplexity Besonders wertvoll für die Recherche ist die Kategorie „Where Models Disagree“. Hier zeigt der Model Council auf, wo sich die KI-Systeme in ihrer Einschätzung oder den gefundenen Daten widersprechen, was eine schnelle Verifizierung kritischer Punkte ermöglicht. + Quelle: Perplexity Fokus auf Strategie und Faktenprüfung In der Praxis zielt diese Funktion auf Anwendungsfälle ab, in denen Präzision wichtiger ist als Geschwindigkeit. Bei Marktanalysen oder technischen Recherchen reduziert der Abgleich mehrerer „KI-Meinungen“ das Risiko von einseitigen Informationen oder Fehlinterpretationen drastisch. Auch der Bereich „Where Models Agree“ spart Zeit. Wenn sich GPT-5.2 und Claude Opus 4.5 bei Finanzdaten oder historischen Fakten einig sind, steigt das Vertrauen in die Richtigkeit der Information, ohne dass der Nutzer manuell mehrere Quellen prüfen muss. + Quelle: Perplexity Verfügbarkeit im High-End-Segment Der Zugriff auf den Model Council bleibt vorerst auf zahlende Kunden des „Perplexity Max“-Abonnements beschränkt. Die Funktion ist zum Start exklusiv über die Web-Oberfläche verfügbar, eine Integration in die mobilen Apps folgt oft erst zu einem späteren Zeitpunkt. Perplexity positioniert sich damit weiter als Recherche-Werkzeug für Profis und grenzt sich von reinen Chatbots ab. Wer fundierte Entscheidungen treffen muss, erhält hier ein Werkzeug, das die Stärken verschiedener Modell-Architekturen in einem einzigen Workflow vereint. Anzeige
„Artificial Hivemind“: Forscher befürchten kulturelle Verarmung durch homogene KI-Outputs

Eine groß angelegte Untersuchung zeigt, dass unterschiedliche KI-Sprachmodelle bei offenen Aufgaben überraschend ähnliche Antworten produzieren. Die Forscher warnen vor langfristigen Folgen für die menschliche Kreativität.

Der Artikel „Artificial Hivemind“: Forscher befürchten kulturelle Verarmung durch homogene KI-Outputs erschien zuerst auf The Decoder.
Bericht: OpenAI könnte gesponserte Inhalte direkt in ChatGPT-Antworten einbauen

OpenAI arbeitet an Werbeformaten für ChatGPT – von gesponserten Antworten bis zu Anzeigen in der Seitenleiste.

Der Artikel Bericht: OpenAI könnte gesponserte Inhalte direkt in ChatGPT-Antworten einbauen erschien zuerst auf The Decoder.
OpenAI verbessert ChatGPTs Verhalten bei psychischen Krisen

OpenAI hat das Standardmodell von ChatGPT gezielt überarbeitet, um in sensiblen Gesprächen verlässlichere Antworten zu geben.

Der Artikel OpenAI verbessert ChatGPTs Verhalten bei psychischen Krisen erschien zuerst auf THE-DECODER.de.
Ein einzelner Prompt soll langweilige KI-Antworten verhindern

Sprachmodelle neigen nach dem Training zu immer ähnlicheren Antworten. Das „Verbalized Sampling“ soll gegen die zunehmende Stereotypisierung von Sprachmodellen nach dem Training helfen.

Der Artikel Ein einzelner Prompt soll langweilige KI-Antworten verhindern erschien zuerst auf THE-DECODER.de.