Schlagwort: Reasoning

  • OpenAI startet KI-Modelle GPT-5.4 Thinking und Pro: Coding, Reasoning und Computer Use in einem Modell

    OpenAI stellt mit GPT-5.4 sein bislang leistungsfähigstes Modell vor. Es vereint erstmals Coding, Computerbedienung und Reasoning in einem einzigen Modell.

    Der Artikel OpenAI startet KI-Modelle GPT-5.4 Thinking und Pro: Coding, Reasoning und Computer Use in einem Modell erschien zuerst auf The Decoder.

  • Moderne KI-Modelle scheitern kollektiv an simplen Logikaufgaben

    Hochentwickelte futuristische Roboter von OpenAI, Anthropic und Google versuchen 5 Bauklötze aufeinander zu stapeln, scheitern aber grandios an dieser einfach Aufgabe. Über den Köpfen Fragezeichen.

    Nano Banana

    Kurzfassung

    Quellen

    Eine neue Studie belegt, dass moderne Sprachmodelle trotz Fortschritten systematisch bei einfachen Logikaufgaben scheitern. Anstatt echte Schlussfolgerungen zu ziehen, nutzen die Modelle lediglich statistische Mustererkennung aus ihren Trainingsdaten. Schon minimale Abweichungen bei bekannten Prompts bringen die Systeme schnell an ihre Leistungsgrenze. Die dokumentierten Fehler werden nun transparent in einem Open-Source-Repository gesammelt, um die strukturellen Schwächen greifbar zu machen.

    Large Language Model Reasoning Failures (arXiv:2602.06176)

    Awesome-LLM-Reasoning-Failures (GitHub-Repo zur Papersammlung)

    AI’s Fatal Flaw—The Most Advanced Models Fail Basic Logic Tests (Popular Mechanics)

    Moderne KI-Modelle weisen trotz aktueller Fortschritte eklatante Schwächen beim logischen Denken auf. Eine neue Übersichtsstudie belegt, dass selbst die fortschrittlichsten Systeme bei einfachen Deduktionsaufgaben systematisch Fehler produzieren. Forscher fassen diese grundlegenden Mängel nun in einer detaillierten Analyse zusammen. Anzeige Mustererkennung statt echter Deduktion Entwickler trainieren große Sprachmodelle darauf, statistische Wahrscheinlichkeiten von Wortfolgen vorherzusagen. Diese grundlegende Architektur führt dazu, dass die Systeme komplexe Sachverhalte oft flüssig und überzeugend formulieren. Bei genauerer Betrachtung simulieren sie logische Schlussfolgerungen jedoch häufig nur, anstatt sie durch einen verlässlichen Regelkreis tatsächlich zu berechnen. Das zeigt das aktuelle Papier „Large Language Model Reasoning Failures“, das Forscher nun veröffentlicht haben. Die Autoren demonstrieren darin, dass etablierte LLMs bei einfachen mathematischen oder räumlichen Logiktests schnell an ihre Grenzen stoßen. Sobald Forscher die Parameter einer bekannten Standardaufgabe auch nur minimal abändern, bricht die scheinbare Logik der Modelle oft komplett zusammen. Sie reproduzieren dann lediglich auswendig gelernte Muster aus ihren riesigen Trainingsdaten, ohne die zugrundeliegende Fragestellung wirklich zu erfassen. Dieses Verhalten entlarvt die aktuellen Reasoning-Fähigkeiten als sehr oberflächlich. + Quelle: arXiv:2602.06176 Ein Katalog der strukturellen Aussetzer Um das Ausmaß der Problematik greifbar zu machen, bündelt ein begleitendes Open-Source-Repository auf GitHub zahlreiche dokumentierte Fehlschläge. Diese Sammlung mit dem Titel „Awesome-LLM-Reasoning-Failures“ verdeutlicht auf einen Blick, dass die Aussetzer keineswegs zufällig auftreten. Es handelt sich um tiefgreifende, strukturelle Defizite der zugrundeliegenden Technologie. Die fortlaufend aktualisierte Liste zeigt präzise auf, an welchen Stellen selbst die teuersten Modelle bei banalen Fragestellungen oder einfachen Text-Rätseln scheitern. Viele Anwender verlassen sich im professionellen Alltag zunehmend auf die analytischen Fähigkeiten dieser Systeme. Die Studie mahnt hier zu einer nüchternen Betrachtung. Ein Algorithmus, der fehlerfreien Code generiert oder fließend übersetzt, besitzt nicht zwingend die Fähigkeit zur echten Logik. Ein leicht verändertes Prompt reicht in der Praxis oft aus, um das System vollständig aus dem Tritt zu bringen und falsche Schlüsse zu provozieren. Forscher und Entwickler arbeiten aktuell intensiv an neuen mathematischen Ansätzen, um das Reasoning der Netzwerke fundamental zu verbessern. Bis diese strukturellen Anpassungen greifen, bleiben logische Aussetzer ein berechenbares Risiko bei der Nutzung von Sprachmodellen.

  • Sprachmodelle denken anders: Studie zeigt tiefe Lücke zu menschlichem Reasoning

    Eine große Analyse von über 170.000 Denkspuren offener Reasoning-Modelle zeigt: Große Sprachmodelle setzen bei schwierigen Aufgaben vor allem einfache Standardstrategien ein. Eine neue, kognitionswissenschaftlich begründete Einteilung von Denkprozessen macht sichtbar, welche Fähigkeiten fehlen und wann zusätzliche Denkhinweise im Prompt wirklich helfen.

    Laut der Studie „Cognitive Foundations for Reasoning and Their Manifestation in LLMs“ reichen heutige Tests für Sprachmodelle nicht aus, um deren Denkfähigkeit zu beurteilen. Sie messen vor allem, ob eine Antwort stimmt, schreiben die Autor:innen im Paper. Ob ein Modell wirklich schlussfolgert oder nur bekannte Muster wiederholt, bleibe meist unsichtbar.

    Das Team wertete deshalb 171.485 ausführliche Denkspuren von 17 Modellen sowie 54 laut mit gesprochene Lösungswege von Menschen aus und verglich sie. Die Aufgaben reichen von Rechenaufgaben über Fehlersuche bis zu politischen und medizinischen Dilemmata.

    Der Artikel Sprachmodelle denken anders: Studie zeigt tiefe Lücke zu menschlichem Reasoning erschien zuerst auf The Decoder.

  • „OpenAI for Science“: OpenAI baut ein neues Wissenschafts-Team auf

    OpenAI stellt mit „OpenAI for Science“ ein Team auf, das wissenschaftliches Reasoning vorantreiben soll. Der theoretische Physiker Alex Lupsasca wechselt zu OpenAI – und schildert, dass „GPT‑5 Pro“ in seiner Forschung binnen Minuten eine komplexe Symmetrie wiederfand.

    Der Artikel „OpenAI for Science“: OpenAI baut ein neues Wissenschafts-Team auf erschien zuerst auf THE-DECODER.de.

  • Cohere präsentiert KI-Modell für fortgeschrittenes Reasoning in Unternehmen

    Cohere stellt mit Command A Reasoning ein neues Sprachmodell vor, das speziell für anspruchsvolle Reasoning-Aufgaben in Unternehmen entwickelt wurde.

    Der Artikel Cohere präsentiert KI-Modell für fortgeschrittenes Reasoning in Unternehmen erschien zuerst auf THE-DECODER.de.

  • Alibabas KI-Modell Qwen2.5 glänzt bei Mathe nur dank auswendig gelernter Trainingsdaten

    Taschenrechner mit vier Fragezeichen auf dem Display vor grünem 3D-Gitterhintergrund.

    Eine neue Studie zeigt, dass die beeindruckenden Fortschritte von Alibabas Qwen2.5-Modellen beim mathematischen Reasoning durch Reinforcement Learning hauptsächlich auf Datenkontamination zurückzuführen sind. Auf „sauberen“ Benchmarks versagen dieselben Methoden.

    Der Artikel Alibabas KI-Modell Qwen2.5 glänzt bei Mathe nur dank auswendig gelernter Trainingsdaten erschien zuerst auf THE-DECODER.de.