Schlagwort: Pro

Google legt uns mit Gemini 3.5 Flash rein

GPT-Images-2.0

Kurzfassung
▾

Quellen
▾

Google hat den Basispreis für Gemini 3.5 Flash auf 9 US-Dollar verdreifacht.
Das KI-Modell verbraucht durch intensives Reasoning selbst auf niedriger Stufe extrem viele Gedanken-Token.
In unabhängigen Benchmarks ist die Flash-Variante dadurch im Betrieb teurer als Gemini 3.1 Pro.
Nutzer sollten den Thinking-Modus genau prüfen, da Google Abos auf den Echtzeit-Verbrauch umstellt.

All AI – Gemini und Claude: Rechenleistung im Abo

Google präsentiert Gemini 3.5 Flash als das neue, schnelle Mittelklasse-Modell. In der Praxis entpuppt sich die Architektur jedoch als Kostenfalle für Nutzer. Das KI-Modell übersteigt durch einen exzessiven Token-Verbrauch sogar die Ausgaben für das Flaggschiff Gemini 3.1 Pro. Versteckte Kosten durch Denkprozesse Tests von mir mit identischen Prompts und der Einstellung »low« für das Reasoning zeigen ein unerwartetes Verhalten. Gemini 3.5 Flash greift bei nahezu jeder Anfrage auf umfangreiche interne Denkprozesse zurück. Dabei generiert das KI-Modell Tausende sogenannte Thinking-Tokens, die das Kontextfenster füllen und letztlich auf der Rechnung landen. Gemini 3.1 Pro verzichtet im direkten Vergleich bei vielen meiner Aufgaben komplett auf diesen Zwischenschritt oder verbraucht deutlich weniger. Dies führt dazu, dass die vermeintlich günstige Flash-Variante für dieselbe Aufgabe am Ende deutlich mehr Output liefert und natürlich auch berechnet. + Messungen des Artificial Analysis Index bestätigen dieses Bild. Der Standard-Parcours kostet bei Gemini 3.5 Flash rund 1.552 US-Dollar, während das Pro-Modell die gleichen Aufgaben für 892 US-Dollar abschließt. Der Hauptgrund für diese Differenz liegt in den Reasoning-Kosten, die bei der Flash-Architektur unverhältnismäßig hoch ausfallen. + Quelle: https://artificialanalysis.ai/ Auf dem Bild sind zwei interessante Dinge zu sehen. Der grüne Bereich zeigt, dass Gemini Flash fast genauso teuer ist wie die Pro-Variante. Der hellgrüne Bereich zeigt die »Thinking«-Kosten und macht damit deutlich, dass Flash deutlich länger und intensiver nachdenkt. Preispolitik rückt die Modelle zusammen Frühere Generationen wiesen einen deutlichen Preisabstand auf. Gemini 2.5 Flash kostete mit 2,50 US-Dollar nur einen Bruchteil des 15 US-Dollar teuren Pro-Modells. Auch Gemini 3 Flash ist nur minimal auf 3 US-Dollar angestiegen. Dieser Abstand verringert sich nun spürbar. Für das aktuelle Gemini 3.1 Pro ruft Google 12 US-Dollar auf, bei extrem großen Kontextfenstern über 200.000 Token sind es 18 US-Dollar. Gemini 3.5 Flash schlägt mittlerweile mit 9 US-Dollar zu Buche. Damit kostet es mehr als dreimal so viel wie ältere Flash-Versionen. Kombiniert man nun den gestiegenen Grundpreis mit dem ausufernden Token-Verbrauch für das Nachdenken, kippt die Wirtschaftlichkeit. Das für Effizienz ausgelegte KI-Modell unterbietet den großen Bruder im Alltag schlicht nicht mehr. Ganz im Gegenteil: Bei mir persönlich ist es bei identischen Workflows über die API immer teurer! Anzeige Leistungssprung mit Lücken Angesichts der hohen Betriebskosten rückt die Leistungsfähigkeit in den Fokus. Gemini 3.5 Flash muss nicht nur besser sein als sein Vorgänger, sondern auch deutlich besser als Gemini 3.1 Pro. Im übergreifenden Intelligence Index liegt aber Gemini 3.5 Flash weiterhin knapp zwei Punkte hinter Gemini 3.1 Pro. Die Testergebnisse zeigen zudem, dass die neue Architektur sich weniger strikt an detaillierte Systemvorgaben hält. + Quelle: https://artificialanalysis.ai/ Eine bemerkenswerte Stärke zeigt Gemini 3.5 Flash hingegen im Agentic Index. Hier deklassiert es das Pro-Modell um über zehn Punkte und erreicht mit einem Wert von 70,3 nahezu das Niveau von Claude Opus 4.7. Wer KI-Modelle für autonome Aufgabenketten nutzt, findet hier einen klaren Mehrwert. + Quelle: https://artificialanalysis.ai/ Auch bei der reinen Ausgabegeschwindigkeit dominiert die Flash-Architektur. Mit 219 Token pro Sekunde arbeitet es fast doppelt so schnell wie Gemini 3.1 Pro. Dieser Vorteil verpufft jedoch in der Praxis, wenn das KI-Modell für die Lösung einer Aufgabe doppelt so viele Token benötigt. Trotzdem können hier beiden Gemini Modelle grundsätzlich überzeugen. + Quelle: https://artificialanalysis.ai/ Das Problem wird noch größer Die gestiegenen Kosten treffen Nutzer derzeit besonders hart, da Google die Strukturen seiner Abonnements umstellt. Ähnlich wie beim Konkurrenten Claude basieren die Limits nicht mehr auf pauschalen Freikontingenten, sondern auf der reellen Rechenleistung und den tatsächlichen API-Kosten. Jeder generierte Token und jeder intensive Denkprozess verringern das verfügbare Budget nun unmittelbar. Nutzer müssen ihre Workflows daher präzise evaluieren, um die Kontingente nicht vorzeitig zu erschöpfen. Es gilt abzuwägen, für welche spezifischen Aufgaben große KI-Modelle oder der ressourcenhungrige »Thinking«-Modus zwingend erforderlich sind. Für simple Textarbeiten oder grundlegende Unterhaltungen empfiehlt sich stattdessen ein rechtzeitiger Wechsel auf sparsamere Varianten wie Flash Light. Und zum Schluss noch eine Vermutung. Meiner Meinung nach schreit der gesamte Artikel danach, dass wir im nächsten Monat ein starkes Gemini 3.5 Pro erleben werden, das aber vor allem auch deutlich im Preis steigen wird. Claude Opus 4.7 lässt grüßen… Anzeige
Fields-Medaillist: ChatGPT 5.5 Pro liefert Forschungsergebnis auf Promotionsniveau in unter zwei Stunden

Fields-Medaillist Timothy Gowers ließ ChatGPT 5.5 Pro offene Probleme der Zahlentheorie bearbeiten. Das Modell verbesserte eine exponentielle Schranke auf eine polynomielle, in unter einer Stunde. Ein beteiligter MIT-Forscher nennt die Schlüsselidee „vollkommen originell“. Gowers‘ Fazit: Die Untergrenze für mathematische Beiträge sei nun, etwas zu beweisen, das LLMs nicht können.

Der Artikel Fields-Medaillist: ChatGPT 5.5 Pro liefert Forschungsergebnis auf Promotionsniveau in unter zwei Stunden erschien zuerst auf The Decoder.
GPT-5.5 ist stärker und teurer als Claude Opus

Nano Banana

Kurzfassung
▾

Quellen
▾

OpenAI hat die neuen KI-Modelle GPT-5.5 und GPT-5.5 Pro veröffentlicht, die als autonome Agenten mehrstufige Aufgaben am Computer eigenständig abarbeiten können.
Die Modelle zeigen besonders starke Benchmark-Werte im Bereich Softwareentwicklung, Datenauswertung und wissenschaftlicher Forschung.
Trotz komplexerer Denkprozesse hält GPT-5.5 die Latenz des Vorgängers und verbraucht für vergleichbare Aufgaben spürbar weniger Token.
Für Entwickler steigen die API-Preise jedoch drastisch an, wobei allein die Pro-Version 180 US-Dollar pro 1 Million Output-Token kostet.

OpenAI: Introducing GPT-5.5

OpenAI startet GPT-5.5 und rückt damit ein Modell ins Zentrum, das spürbar mehr Arbeit auf dem Computer selbstständig übernehmen soll. Neu ist vor allem die Kombination aus höherer Leistung, ähnlicher Latenz wie GPT-5.4 und deutlich stärkerem Fokus auf agentische Aufgaben.

Unabhängige Benchmarks Auch jenseits der von OpenAI veröffentlichten Einzeltests fällt GPT-5.5 in externen Auswertungen stark auf. Im Artificial Analysis Intelligence Index liegt das Modell mit 60 Punkten vor Claude Opus 4.7 und Gemini 3 Pro Preview, die beide auf 57 Punkte kommen. + Im Coding Index zeigt sich ein ähnlich klares Bild. Dort erreicht GPT-5.5 59 Punkte und setzt sich damit knapp vor GPT-5.4 mit 57 Punkten sowie vor Gemini 3.1 Pro Preview mit 56 Punkten. Für OpenAI ist das besonders relevant, weil genau dieser Bereich zu den wichtigsten Einsatzfeldern von GPT-5.5 gehört und der Vorsprung hier nicht nur in internen, sondern auch in unabhängigen Benchmarks sichtbar wird. + Noch interessanter ist der Agentic Index, der stärker auf mehrstufige, ausführungsnahe Aufgaben zielt. GPT-5.5 kommt hier auf 74 Punkte und liegt damit vor Claude Opus 4.7 mit 71 sowie deutlich vor GPT-5.4 mit 68 Punkten. Gerade diese Grafik stützt OpenAIs Kernthese, dass GPT-5.5 nicht nur einzelne Antworten verbessert, sondern komplexe Arbeitsabläufe mit Tools, Planung und Ausführung konsistenter bewältigt. + Was GPT-5.5 von GPT-5.4 absetzt OpenAI beschreibt GPT-5.5 als bislang smartestes und intuitivstes Modell des Hauses. Gemeint ist damit nicht nur bessere Textqualität, sondern vor allem mehr Ausdauer bei komplexen Aufgaben über mehrere Schritte hinweg: recherchieren, Tools nutzen, Ergebnisse prüfen, Dokumente erstellen, Software bedienen und einen Auftrag bis zum Ende ausführen. Genau dort setzt auch die Positionierung an. GPT-5.5 soll unklare, mehrteilige Prompts besser verstehen und weniger eng geführt werden müssen. Statt jeden Schritt vorzugeben, reicht laut OpenAI häufiger ein grober Arbeitsauftrag. Die Tabellen stützen diesen Anspruch in vielen praktischen Disziplinen. Besonders deutlich fällt der Sprung bei ARC-AGI-2 aus, wo GPT-5.5 auf 85,0 Prozent kommt, nach 73,3 Prozent für GPT-5.4. Auf ARC-AGI-1 steigt das Modell von 93,7 auf 95,0 Prozent. + Anzeige Stärker bei Coding, aber nicht überall vorn Im Coding legt GPT-5.5 sichtbar zu. Auf Terminal-Bench 2.0 erreicht das Modell 82,7 Prozent und verbessert sich damit um 7,6 Punkte gegenüber GPT-5.4. Auf dem internen Expert-SWE steigt der Wert von 68,5 auf 73,1 Prozent. Auch auf SWE-Bench Pro gewinnt GPT-5.5 leicht auf 58,6 Prozent. Trotzdem ist das Feld nicht komplett abgeräumt. Auf SWE-Bench Pro liegt Claude Opus 4.7 mit 64,3 Prozent vor GPT-5.5. OpenAI verweist zwar auf Hinweise zu möglicher Memorization bei einem Teil dieser Aufgaben, doch am reinen Tabellenwert ändert das zunächst nichts. + Auffällig ist außerdem die Effizienz. Mehrere Diagramme zeigen, dass GPT-5.5 seine besseren Resultate häufig mit weniger Output-Tokens erreicht als GPT-5.4. OpenAI verbindet genau damit den Anspruch, dass das Modell nicht nur stärker, sondern im Alltag auch wirtschaftlicher arbeitet. Aber zu den Preisen am Ende mehr. + + Knowledge Work, Tools und Computer Use Jenseits von Coding zielt GPT-5.5 klar auf klassische Wissensarbeit. Auf GDPval, einem Benchmark für gut spezifizierte Aufgaben über 44 Berufe, kommt das Modell auf 84,9 Prozent. GPT-5.4 liegt bei 83,0 Prozent, Claude Opus 4.7 bei 80,3 Prozent und Gemini 3.1 Pro bei 67,3 Prozent. + Auch bei echter Computerbedienung zeigt sich ein kleiner, aber wichtiger Fortschritt. Auf OSWorld-Verified erreicht GPT-5.5 78,7 Prozent, GPT-5.4 kommt auf 75,0 Prozent. Bei MMMU Pro bleibt der Abstand kleiner: ohne Tools liegen GPT-5.5 und GPT-5.4 beide bei 81,2 Prozent, mit Tools steigt GPT-5.5 auf 83,2 Prozent. + Interessant ist zudem der Bereich Tool Use. Auf BrowseComp erzielt GPT-5.5 84,4 Prozent, GPT-5.5 Pro 90,1 Prozent. Bei Tau2-bench Telecom springt GPT-5.5 auf 98,0 Prozent, während GPT-5.4 bei 92,8 Prozent bleibt. Genau diese Werte passen zu OpenAIs Kernthese: Das Modell versteht Absicht besser und kommt mit weniger Umwegen zum Ziel. + Wissenschaftliche Analyse und Cybersecurity Bei wissenschaftlichen Workflows wirkt GPT-5.5 ebenfalls stärker. Auf GeneBench steigt das Basismodell von 19,0 auf 25,0 Prozent, GPT-5.5 Pro erreicht 33,2 Prozent. Auf BixBench wächst der Wert von 74,0 auf 80,5 Prozent. FrontierMath Tier 4 verbessert sich von 27,1 auf 35,4 Prozent. Ganz vorne liegt GPT-5.5 jedoch auch hier nicht durchgehend. Auf GPQA Diamond erreicht es 93,6 Prozent, während GPT-5.4 Pro mit 94,4 Prozent knapp davor liegt. Bei Humanity’s Last Exam bleibt Claude Opus 4.7 ohne Tools mit 46,9 Prozent vor GPT-5.5 mit 41,4 Prozent. + Im Bereich Cybersecurity meldet OpenAI ebenfalls Fortschritte. Auf CyberGym steigt GPT-5.5 von 79,0 auf 81,8 Prozent. Bei den internen Capture-the-Flags-Challenges wächst der Wert von 83,7 auf 88,1 Prozent. Gleichzeitig stuft OpenAI die Bio- und Cyberfähigkeiten von GPT-5.5 im Preparedness Framework als High ein und verschärft die Schutzmaßnahmen. + Preise, Verfügbarkeit und der Haken GPT-5.5 wird laut OpenAI jetzt in ChatGPT und Codex für Plus, Pro, Business und Enterprise ausgerollt. GPT-5.5 Pro bleibt zunächst Pro-, Business- und Enterprise-Kunden vorbehalten. Für die API kündigt OpenAI einen baldigen Start an. Preislich wird es deutlich teurer. GPT-5.5 soll in der API 5 Dollar pro 1 Million Input-Tokens und 30 Dollar pro 1 Million Output-Tokens kosten. Für GPT-5.5 Pro nennt OpenAI 30 Dollar pro 1 Million Input-Tokens und 180 Dollar pro 1 Million Output-Tokens. Damit liegt vor allem die Pro-Variante in einer Liga, die nur für anspruchsvolle Einsätze plausibel wirkt. OpenAI hält dagegen, dass GPT-5.5 weniger Tokens verbraucht und dadurch mehr Arbeit pro Dollar erledigen soll. Genau diese Abwägung entscheidet am Ende darüber, ob GPT-5.5 nur ein stärkeres Modell ist oder tatsächlich der produktivere Nachfolger von GPT-5.4.
OpenAIs GPT-5.4 Pro löst offenbar eigenständig offenes Mathematikproblem Erdős #1196

GPT-5.4 Pro löst ein offenes Erdős-Problem in 80 Minuten. Terence Tao sieht darin einen sinnvollen Beitrag zur Mathematik.

Der Artikel OpenAIs GPT-5.4 Pro löst offenbar eigenständig offenes Mathematikproblem Erdős #1196 erschien zuerst auf The Decoder.
„Mirage-Effekt“: KI-Modelle diagnostizieren Krankheiten auf Bildern, die nie existierten

Multimodale KI-Modelle wie GPT-5, Gemini 3 Pro und Claude Opus 4.5 generieren detaillierte Bildbeschreibungen und medizinische Diagnosen, selbst wenn gar kein Bild vorliegt. Eine Stanford-Studie zeigt, dass gängige Benchmarks das Problem verdecken.

Der Artikel „Mirage-Effekt“: KI-Modelle diagnostizieren Krankheiten auf Bildern, die nie existierten erschien zuerst auf The Decoder.
GitHub Copilot nutzt ab April Nutzerdaten für KI-Training

GitHub ändert ab dem 24. April 2026 seine Datenrichtlinie für Copilot. Interaktionsdaten von Nutzern der Tarife Free, Pro und Pro+ werden künftig zum Training von KI-Modellen verwendet, sofern diese nicht aktiv widersprechen.

Der Artikel GitHub Copilot nutzt ab April Nutzerdaten für KI-Training erschien zuerst auf The Decoder.
Neues KI-Modell von Google: Lyria 3 Pro generiert bis zu drei Minuten lange Songs

Google macht KI-Musik länger und breiter verfügbar: Lyria 3 Pro erzeugt Songs mit bis zu drei Minuten Länge, inklusive Strophen, Refrains und Bridges. Laut Google wurde das Modell auf Inhalten trainiert, an denen es die entsprechenden Rechte hat – im Unterschied zum Musikgenerator Suno, der sich wegen möglicher Copyright-Verstöße mit Plattenfirmen vor Gericht streitet.

Der Artikel Neues KI-Modell von Google: Lyria 3 Pro generiert bis zu drei Minuten lange Songs erschien zuerst auf The Decoder.
OpenAI bietet Open-Source-Entwicklern kostenlosen Zugang zu ChatGPT Pro und mehr

OpenAI unterstützt Open-Source-Entwickler mit kostenlosem Zugang zu ChatGPT Pro, Codex und Sicherheits-Tools.

Der Artikel OpenAI bietet Open-Source-Entwicklern kostenlosen Zugang zu ChatGPT Pro und mehr erschien zuerst auf The Decoder.
Gemini 3.1 Pro: Googles neues KI-Modell führt Benchmark-Index an und kostet nur ein Drittel der Konkurrenz

Googles Gemini 3.1 Pro führt den Artificial Analysis Intelligence Index an und kostet dabei weniger als die Hälfte der Konkurrenz. Doch Benchmarks sind nicht alles.

Der Artikel Gemini 3.1 Pro: Googles neues KI-Modell führt Benchmark-Index an und kostet nur ein Drittel der Konkurrenz erschien zuerst auf The Decoder.
Googles neues Sprachmodell deklassiert die Konkurrenz

Nano Banana

Kurzfassung
▾

Quellen
▾

Google hat mit Gemini 3.1 Pro ein leistungsstarkes Sprachmodell für komplexe Logik- und Programmieraufgaben veröffentlicht.
Das Update übertrifft in aktuellen Benchmarks sowohl seinen direkten Vorgänger als auch Modelle der Konkurrenz wie OpenAI und Anthropic.
Besonders bei der abstrakten Problemlösung und der autonomen Code-Generierung zeigt die KI massive Verbesserungen.
Die Vorschauversion ist ab sofort für Entwickler, Unternehmen und zahlende Privatnutzer mit Google AI Pro oder Ultra zugänglich.

Google Blog: Gemini 3.1 Pro: A smarter model for your most complex tasks

Google stellt mit Gemini 3.1 Pro ein überarbeitetes KI-Sprachmodell für anspruchsvolle Logik- und Programmieraufgaben vor. Das ab sofort verfügbare Update löst komplexe Probleme deutlich präziser als der Vorgänger und schlägt in den meisten Benchmarks auch die Konkurrenz von OpenAI und Anthropic. Fokus auf abstrakte Problemlösung Google positioniert das Modell gezielt für komplexe Anwendungsfälle. Die Entwickler haben die Fähigkeit der Software, eigenständige logische Schlüsse zu ziehen, tiefgreifend überarbeitet. Das Sprachmodell verarbeitet nun umfangreiche Datensätze strukturierter und setzt kreative Vorgaben direkter in funktionierenden Programmcode um. Als Beispiel nennt der Konzern die Aufgabe, die atmosphärische Stimmung eines Romans in das Design einer modernen Web-Oberfläche zu übersetzen – eine Anforderung, die das Modell nun laut Google ohne mühsame Zwischenschritte bewältigt. Die neue Architektur liefert zudem die technische Basis für das erst kürzlich vorgestellte Modell „Gemini 3 Deep Think“. Während sich dieser spezialisierte Ableger primär auf die wissenschaftliche Forschung konzentriert, integriert Google die grundlegenden Verbesserungen von Gemini 3.1 Pro nun in seine breiter aufgestellten Endkunden- und Entwicklerprodukte. Anzeige Leistungssprung in den Benchmarks Die technischen Fortschritte spiegeln sich deutlich in aktuellen Leistungstests wider. Beim anspruchsvollen Benchmark „ARC-AGI-2“, der die Fähigkeit zur Lösung völlig neuer Logikmuster bewertet, erreicht Gemini 3.1 Pro einen Wert von 77,1 Prozent. Damit verdoppelt das Modell das Ergebnis des Vorgängers Gemini 3 Pro (31,1 Prozent) und verweist Konkurrenten wie Opus 4.6 (68,8 Prozent) sowie GPT-5.2 (52,9 Prozent) auf die hinteren Plätze. Ähnlich dominant zeigt sich die KI beim Test „Humanity’s Last Exam“ für akademisches Denken, wo sie ohne zusätzliche Hilfsmittel 44,4 Prozent erzielt und damit sowohl das eigene Vorgängermodell als auch die Top-Modelle der Mitbewerber übertrifft. Auch bei der Code-Generierung und der autonomen Websuche verzeichnet Google messbare Zuwächse. Im Bereich des kompetitiven Programmierens („LiveCodeBench Pro“) steigert sich Gemini 3.1 Pro auf ein Elo-Rating von 2887 und lässt GPT-5.2 (2393) deutlich hinter sich. Bei autonomen Suchaufgaben („BrowseComp“) erreicht das neue Modell 85,9 Prozent und schlägt Opus 4.6 (84,0 Prozent) knapp. Lediglich beim „SWE-Bench Verified“ für agentenbasiertes Programmieren ordnet sich die Google-KI mit 80,6 Prozent minimal hinter Opus 4.6 (80,8 Prozent) ein, verbessert sich aber spürbar gegenüber der Version 3 Pro. + Quelle: Google Verfügbarkeit und Zielgruppen Entwickler greifen ab sofort über das Google AI Studio und „Google Antigravity auf die 3.1er Version zu. Für den Einsatz im professionellen Umfeld steht das Modell in Vertex AI sowie Gemini Enterprise bereit. Privatnutzer erhalten ebenfalls Zugang, sofern sie ein kostenpflichtiges Abonnement besitzen. Gemini 3.1 Pro wird aktuell mit höheren Nutzungslimits in der Gemini-App sowie in NotebookLM für Kunden der Tarife Google AI Pro und Ultra ausgerollt.