Autonome Forschung: DeepMind stellt Mathematik-Agent Aletheia vor

Altheira in Verbindung mit einem Wissenschaftler

Nano Banana

Kurzfassung

Quellen

Google DeepMind stellt mit Aletheia einen KI-Agenten vor, der auf dem Reasoning-Modell Gemini Deep Think basiert und autonom forscht. Das System konnte eigenständig eine Generalisierung des Erdős-Problems in der Graphentheorie lösen, indem es Hypothesen aufstellte und verifizierte. Im Gegensatz zu reinen Sprachmodellen nutzt Aletheia iterative Feedback-Schleifen, um Fehler in Beweisen selbstständig zu erkennen und zu korrigieren. Die Technologie zeigt großes Potenzial in formalen Wissenschaften wie der Mathematik, muss sich in experimentellen Feldern aber noch beweisen.

Accelerating Mathematical and Scientific Discovery with Gemini Deep Think (Google DeepMind Blog)

Towards Autonomous Mathematics Research (arXiv:2602.10177)

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques (arXiv:2602.03837)

Aletheia Paper (PDF, GitHub)

Google DeepMind gewährt Einblick in die nächste Ausbaustufe seiner Gemini-Architektur und stellt mit „Aletheia“ einen Agenten für die wissenschaftliche Forschung vor. Das System kombiniert das Reasoning-Modell Gemini Deep Think mit iterativen Prüfschleifen, um mathematische Probleme nicht nur zu bearbeiten, sondern eigenständig neue Lösungswege zu beweisen. Anzeige Vom Assistenten zum Akteur Bisherige Sprachmodelle agierten primär als Wissensdatenbanken oder Code-Assistenten, die auf klare Eingabeaufforderungen reagierten. Mit Gemini Deep Think und dem darauf aufbauenden Agenten-Framework Aletheia verschiebt Google den Fokus auf autonome Problemlösung. Laut den veröffentlichten Preprints (arXiv:2602.10177) ist Aletheia in der Lage, einen Suchraum potenzieller Hypothesen aufzuspannen und diese systematisch abzuarbeiten. Der technische Kern besteht darin, dass das Modell nicht sofort eine Antwort generiert. Stattdessen „denkt“ das System über mehrere Schritte hinweg (Chain-of-Thought), wobei Zwischenergebnisse intern validiert werden. DeepMind demonstriert damit den Übergang von bloßer Mustererkennung hin zu einer rudimentären Form der wissenschaftlichen Methodik: Hypothese aufstellen, Experiment (oder Beweis) durchführen, Ergebnis validieren. + Quelle: Google Praktischer Durchbruch in der Graphentheorie Dass es sich dabei nicht nur um theoretische Konzepte handelt, soll die Lösung einer Generalisierung des „Erdős-Problems 1051“ belegen. Dieses Problem aus dem Bereich der Graphentheorie und Kombinatorik galt lange als offen. Aletheia gelang es laut DeepMind, die relevanten Parameter zu identifizieren und einen formal korrekten Beweis zu konstruieren. Das Ergebnis ist Teil einer Reihe von vier Forschungspapieren, die unter Beteiligung oder ausschließlicher Autorschaft der KI entstanden sind. Dabei nutzte der Agent Feedback-Schleifen. Erzeugte das Modell einen fehlerhaften Beweisansatz, wurde dieser durch integrierte Verifikations-Tools (wie formale Beweiser oder Python-Skripte) als falsch markiert. Der Agent verwarf den Pfad und suchte autonom nach Alternativen, ohne dass ein menschlicher Eingriff nötig war. Anzeige Messbare Effizienzsprünge in Benchmarks Die Überlegenheit des Agenten-Ansatzes gegenüber reinen Modellen spiegelt sich in den von DeepMind veröffentlichten Leistungsdaten wider. Auf dem „IMO-ProofBench Advanced“, der mathematische Aufgaben auf Olympiade-Niveau abbildet, erreicht Aletheia einen Score von über 90 Prozent und setzt sich damit knapp, aber sichtbar vor die fortgeschrittene Version von Gemini Deep Think (Stand Januar 2026). + Quelle: Google Noch drastischer fällt der Unterschied bei akademischen Hochleistungsaufgaben aus. Im „FutureMath Basic“-Benchmark, der Übungen auf Doktorats-Niveau (Ph.D.) umfasst, erzielt Aletheia einen Wert von rund 46 Prozent. Das Vergleichsmodell kommt bei identischem Rechenaufwand an diesem Punkt der Kurve lediglich auf gut 22 Prozent. Selbst mit massiv erhöhtem Ressourceneinsatz (Inference-Time Compute) bleibt das reine Gemini-Deep-Think-Modell unter der 40-Prozent-Marke, was die Effizienz der agentischen Architektur unterstreicht. + Quelle: Google Mathematik als idealer Testraum Die Leistung ist beachtlich, muss jedoch technisch eingeordnet werden. Mathematik und theoretische Informatik bieten als geschlossene Systeme mit klar definierten Wahrheitswerten (wahr/falsch) ideale Bedingungen für solche KI-Systeme. Ein Beweis lässt sich algorithmisch leichter überprüfen als die Plausibilität einer soziologischen Studie. Es bleibt abzuwarten, wie effizient Aletheia in weniger formalisierten Disziplinen wie der Biologie oder Chemie arbeitet, wo „Ground Truth“ oft experimentelle Daten und nicht nur logische Konsistenz erfordert. Google positioniert Deep Think und Aletheia als Werkzeuge zur Beschleunigung der Wissenschaft. Die aktuellen Ergebnisse zeigen, dass KI in nischenspezifischen, formalen Bereichen bereits das Niveau menschlicher Forscher erreichen kann – die Generalisierung auf breitere wissenschaftliche Felder steht jedoch noch aus.