Schlagwort: Methoden

  • OpenAI löst historisches Rätsel der Mathematik

    Professor löst eine Mathe Aufgabe

    GPT-Images-2.0

    Kurzfassung

    Quellen

    Ein internes KI-Modell von OpenAI hat das historische Einheitsabstandsproblem von Paul Erdős autonom gelöst.
    Die KI widerlegte die seit 1946 bestehende Vermutung durch den unerwarteten Einsatz tiefer zahlentheoretischer Methoden.
    Der Erfolg des Modells stieg durch die Erhöhung der Rechenzeit beim Testen auf eine Genauigkeit von fast 50 Prozent.
    Es ist das erste Mal, dass eine mathematische Spitzenleistung dieser Art komplett eigenständig von einer KI erbracht wurde.

    OpenAI: An OpenAI model has disproved a central conjecture in discrete geometry
    OpenAI: A construction of n points in the plane with many unit distances (Proof PDF)

    Ein internes KI-Modell von OpenAI hat eine seit 80 Jahren bestehende mathematische Vermutung des legendären Mathematikers Paul Erdős autonom widerlegt. Das KI-Modell löste das berühmte Problem der Einheitsabstände in der diskreten Geometrie überraschend durch Methoden aus der algebraischen Zahlentheorie.

    Unerwartete Verbindungen in der Mathematik Das Problem von 1946 beschäftigt sich mit der Frage, wie viele Punktepaare in einer Ebene exakt den Abstand eins haben können. Bisher gingen Experten davon aus, dass quadratische Gitternetze die optimale Anordnung bieten. Das neue KI-Modell bewies jedoch das Gegenteil und fand eine unendliche Familie von Beispielen, die diese Annahme mathematisch widerlegen. Für die Lösung nutzte das KI-Modell komplexe Methoden wie unendliche Klassenkörpertürme, die eigentlich in der algebraischen Zahlentheorie verortet sind. Mathematiker zeigten sich überrascht von dieser tiefen Verknüpfung zweier bisher getrennter Fachgebiete. Externe Experten überprüften und bestätigten den Beweis bereits in einer begleitenden wissenschaftlichen Arbeit.
    »In meinen Augen zeigt diese Arbeit, dass aktuelle KI-Modelle über bloße Helfer für menschliche Mathematiker hinausgehen – sie sind fähig, originelle, geniale Ideen zu haben und diese in die Tat umzusetzen.« Arul Shankar Mehr Rechenzeit bringt den Durchbruch Ein entscheidender Faktor für den Erfolg des Beweises war die Skalierung der Rechenleistung während der Antwortphase. Interne Untersuchungen von OpenAI zeigen, dass die Erfolgsquote des Modells bei dieser komplexen Aufgabe stark von der investierten Rechenzeit abhängt. Ohne zusätzliche Denkzeit lag die Genauigkeit nahezu bei null Prozent. + Quelle: OpenAI Mit steigendem Einsatz von sogenanntem Test-Time-Compute kletterte die Erfolgsrate in den Tests auf fast 50 Prozent. Diese Skalierung verdeutlicht das enorme Potenzial von hochentwickelten Reasoning-Fähigkeiten bei KI-Modellen. Es zeigt zudem, dass komplexe logische Zusammenhänge durch mehr Rechenzeit stabil gehalten werden können. Diese autonomen Fähigkeiten könnten künftig auch in der Biologie, Physik oder den Materialwissenschaften eine wichtige Rolle spielen. Anzeige

  • Die große KI-Lüge?

    Ein Roboter misst mit einem kaputten, verzerrten Lineal

    Nano Banana

    Kurzfassung

    Quellen

    Eine internationale Studie hat 445 KI-Benchmark-Artikel untersucht. Das Ergebnis: Fast alle weisen massive methodische Schwächen auf. Nur 16 Prozent der Tests nutzen wissenschaftlich rigorose Methoden. Dies stellt die Zuverlässigkeit von KI-Leistungsmessungen und den oft zitierten Fortschritt fundamental infrage.

    Die Studie als PDF-Paper Hyper.ai – AI-Benchmarks untergraben Glaubwürdigkeit Hacker News – Study identifies weaknesses in how AI systems are evaluated

    Die Jagd nach der besten KI treibt die Branche an. Doch wie misst man Leistung überhaupt? Eine neue Studie erschüttert die Grundfesten dieser Messungen. Ein Team hat hunderte KI-Benchmarks analysiert und stellt fest: Die meisten sind wissenschaftlich unbrauchbar. Ein Fundament mit tiefen Rissen Ein internationales Forschungsteam hat die Messlatten der KI-Branche selbst auf den Prüfstand gestellt. Die Wissenschaftler analysierten 445 Benchmark-Artikel aus den wichtigsten KI-Konferenzen. Ihr Fazit ist ernüchternd. Die Studie zeigt massive methodische Schwächen bei fast allen gängigen Tests für Sprachmodelle auf. Das Team fand heraus, dass nur 16 Prozent der untersuchten Benchmarks wissenschaftlich rigorose Methoden anwenden. Konkret mangelt es an klaren Definitionen, was genau gemessen wird. Auch die Auswahl der Testdaten und die angewandten statistischen Verfahren halten einer strengen Prüfung oft nicht stand. + Quelle: https://openreview.net/pdf?id=mdA5lVvNcU Fortschritt auf wackeligem Boden Diese Ergebnisse werfen ein kritisches Licht auf den vermeintlichen Fortschritt im KI-Sektor. Wenn die Messinstrumente fehlerhaft sind, ist auch die Rangliste der Modelle unzuverlässig. Die gesamte Bewertung, welches Sprachmodell „besser“ ist, basiert womöglich auf einer fehlerhaften Grundlage. Die Konsequenzen gehen über reine Leistungsvergleiche hinaus. Auch die Sicherheit von KI-Systemen wird mit ähnlichen Methoden bewertet. Die Studie warnt, dass fehlerhafte Benchmarks dazu führen könnten, dass Sicherheitstests „irrelevant oder sogar irreführend“ sind. Das Vertrauen in die Zuverlässigkeit und Sicherheit der Technologie steht damit auf dem Spiel. Die Veröffentlichung ist ein Weckruf an die Forschungsgemeinschaft. Die Autoren fordern ein Umdenken und die Entwicklung robuster, wissenschaftlich fundierter Standards. Ohne verlässliche Messungen tappe die KI-Entwicklung weitgehend im Dunkeln. + Quelle: https://openreview.net/pdf?id=mdA5lVvNcU