Schlagwort: Modell

  • Physical Intelligence zeigt Roboter-Modell mit LLM-typischer Generalisierung, samt aller bekannten Schwächen

    Das US-Start-up Physical Intelligence hat mit π0.7 ein neues Modell für Roboter vorgestellt, das im Training gelernte Fähigkeiten neu kombinieren können soll, ähnlich wie ein Sprachmodell Textbausteine aus seinen Trainingsdaten neu zusammensetzt. Die Forscher sprechen von ersten Anzeichen einer „kompositionellen Generalisierung“ in der Robotik.

    Der Artikel Physical Intelligence zeigt Roboter-Modell mit LLM-typischer Generalisierung, samt aller bekannten Schwächen erschien zuerst auf The Decoder.

  • Kleines Qwen-Modell schlägt großes Gemma 4

    Ein Qwen Baer

    Nano Banana

    Kurzfassung

    Quellen

    Qwen3.6-35B-A3B ist ein neues Mixture-of-Experts-Modell, das bei 35 Milliarden Gesamtparametern nur drei Milliarden Parameter aktiv nutzt.
    Trotz der Effizienz schlägt das System größere dichte Modelle beim Agentic Coding und liefert Spitzenwerte in etablierten Benchmarks.
    Das KI-Modell besitzt zudem starke multimodale Fähigkeiten, insbesondere bei der räumlichen Intelligenz.
    Entwickler können das System als Open Weights herunterladen oder direkt in Assistenten wie OpenClaw und Claude Code integrieren.

    Qwen Team – Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All

    Ein neues KI-Modell setzt derzeit Maßstäbe im Bereich des autonomen Programmierens. Mit Qwen3.6-35B-A3B steht ein System zur Verfügung, das bei komplexen Code-Aufgaben selbst wesentlich größere Konkurrenten hinter sich lässt. Die Besonderheit liegt dabei in der extremen strukturellen Effizienz. Kompakte Architektur dominiert Benchmarks Das Modell basiert auf einer Mixture-of-Experts-Architektur (MoE). Von den insgesamt 35 Milliarden Parametern aktiviert das System bei einer Anfrage lediglich drei Milliarden. Diese sparsame Arbeitsweise schont Rechnerressourcen erheblich, ohne Kompromisse bei der eigentlichen Denkleistung einzugehen. In etablierten Leistungstests übertrifft Qwen3.6-35B-A3B ältere und deutlich größere Modelle. Im anspruchsvollen »SWE-bench Verified« verzeichnet das KI-Modell einen Wert von 73,4 Punkten. Das Modell Gemma4-31B erreicht hier zum Vergleich lediglich 52,0 Punkte. Auch beim Terminal-Bench 2.0 setzt sich das neue System mit 51,5 Punkten souverän an die Spitze und lässt zudem den eigenen Vorgänger weit hinter sich. Die primären Stärken liegen im Agentic Coding. Das Modell führt nicht nur isolierte Code-Schnipsel aus, sondern plant und korrigiert Lösungswege eigenständig über mehrere Iterationen hinweg. Für solche komplexen Reasoning-Aufgaben liefert das System die Funktion »preserve_thinking«, welche den detaillierten Gedankengang über lange Chat-Verläufe hinweg aufrechterhält. + Quelle: Alibaba Visuelle Intelligenz auf hohem Niveau Neben der Verarbeitung von Text und Code verfügt das KI-Modell über weitreichende multimodale Fähigkeiten. Es analysiert Bilder sowie grafische Zusammenhänge mit hoher Präzision. In diversen Bild-Sprach-Tests operiert das System auf dem Leistungsniveau von Claude Sonnet 4.5. Die Daten offenbaren eine besondere Stärke im Bereich der räumlichen Intelligenz. Beim Benchmark RefCOCO erzielt das Modell starke 92,0 Punkte. Entwickler können somit visuelle Vorlagen oder Fehler-Screenshots direkt in den Programmier-Workflow einspeisen. Anzeige Nahtlose Integration für Entwickler Das KI-Modell wird der Community als Open Weights zur Verfügung gestellt. Der Download erfolgt über Plattformen wie Hugging Face oder ModelScope. Alternativ lässt sich das System über die Alibaba Cloud Model Studio API unter der Kennung »qwen3.6-flash« ansteuern. Für den produktiven Einsatz ist die Kompatibilität mit etablierten Coding-Assistenten bereits integriert. Das Modell lässt sich problemlos mit Tools wie OpenClaw, Qwen Code und Claude Code verknüpfen. Entwickler bedienen das System dadurch direkt aus der gewohnten Terminal-Umgebung heraus.

  • Claude Code: 5 Strategien für große Kontextfenster

    Claude Code Grafiken

    Nano Banana

    Kurzfassung

    Quellen

    Ein neues Update integriert den Befehl zur detaillierten Nutzungsübersicht in Claude Code.
    Nutzer erhalten konkrete Methoden an die Hand, um den Leistungsabfall bei sehr großen Kontextfenstern zu minimieren.
    Die gezielte Trennung von Aufgaben und der Einsatz von isolierten Sub-Agenten optimieren den alltäglichen Ressourcenverbrauch.

    Anthropic: Using Claude Code: session management and 1M context

    Ein neues Update für Claude Code bringt den Befehl »/usage« für eine präzise Nutzungsübersicht. Gleichzeitig erfordert das erweiterte Kontextfenster von einer Million Token klare Strategien, um Leistungsabfälle der KI-Modelle bei komplexen Aufgaben zu verhindern. Diese 5 Möglichkeiten werden vorgestellt: + Quelle: Anthropic Das Kontextfenster und sein Leistungsabfall Das Kontextfenster definiert, welche Informationen ein KI-Modell gleichzeitig verarbeitet. Claude Code erfasst hierbei bis zu eine Million Token. Diese gewaltige Datenmenge setzt sich aus System-Prompts, bisherigen Unterhaltungen sowie allen eingelesenen Dateien zusammen. Eine extrem hohe Auslastung verursacht jedoch ein Phänomen, welches Fachleute »Context Rot« nennen. Die Leistung sinkt spürbar, da das System seine Aufmerksamkeit auf zu viele Token verteilt. Ältere Inhalte lenken das Modell zunehmend von der eigentlich aktuellen Aufgabe ab. Um diesem Effekt entgegenzuwirken, greift ein Automatisierungsmechanismus. Sobald das harte Speicherlimit naht, fasst das System den bisherigen Verlauf selbstständig zusammen. Alternativ stoßen Nutzer diesen Vorgang manuell an, um den Speicher aktiv freizuräumen. + Quelle: Anthropic Navigationstools nach jeder Antwort Nach jeder generierten Antwort des Systems stehen verschiedene Wege offen. Neben der reinen Fortsetzung der Unterhaltung existieren spezifische Optionen zur Speicherverwaltung. Dazu zählen das Zurückspulen, das Starten einer frischen Session, das manuelle Zusammenfassen oder das Auslagern an Sub-Agenten. Grundsätzlich gilt eine einfache Regel. Für jede völlig neue Aufgabe empfiehlt sich der Start einer gänzlich neuen Session. Zwar bewältigen die KI-Modelle durch die Million Token auch umfangreiche Projekte wie die Entwicklung kompletter Anwendungen, dennoch droht bei zu langen Verläufen der Context Rot. Lediglich bei sehr eng verwandten Aufgaben lohnt sich das Behalten des alten Kontexts. Das Modell greift direkt auf bereits bekannte Daten zurück und muss Quellcode nicht erneut einlesen. Das spart wertvolle Zeit und reduziert die Berechnungskosten. + Quelle: Anthropic Zurückspulen statt Korrigieren Anstatt Fehlversuche durch lange textliche Korrekturanweisungen zu beheben, erweist sich das gezielte Zurückspulen oft als deutlich effektiver. Der Befehl »/rewind« ermöglicht den präzisen Sprung zu einer bestimmten vorherigen Nachricht im Verlauf. Alle darauffolgenden Eingaben und Fehler verschwinden restlos aus dem Kontext. Das Modell erhält so die Chance, mit einer leicht angepassten Anweisung direkt einen völlig anderen Lösungsweg einzuschlagen. Nutzer umgehen durch diesen Schritt die Gefahr, dass der gescheiterte Versuch den zukünftigen Fokus der KI stört. Eine kurze Zusammenfassung der wichtigsten Erkenntnisse vor dem eigentlichen Zurückspulen optimiert den Neustart zusätzlich. + Quelle: Anthropic Verlauf zusammenfassen oder komplett bereinigen Bei sehr langen und unübersichtlichen Unterhaltungen reduzieren bestimmte Befehle die Datenlast. Die Funktion »/compact« bittet das Modell um eine Zusammenfassung und ersetzt den bisherigen Chat-Verlauf damit. Dies funktioniert schnell, führt naturgemäß aber zu einem leichten Informationsverlust. Fehlgeleitete automatische Zusammenfassungen entstehen meist an harten inhaltlichen Übergängen. Wechselt der Fokus plötzlich von einer langen Fehlersuche zu einer völlig neuen Code-Anpassung, übersieht das Modell oft das neue Ziel. Genau vor einer solchen Zusammenfassung agiert das System aufgrund des extrem vollen Speichers am unzuverlässigsten. Der Befehl »/clear« startet stattdessen eine komplett saubere Oberfläche. Dies erfordert zwar eine manuell geschriebene Übergabenachricht durch den Anwender, bietet dafür aber die absolute Kontrolle über den übernommenen Kontext. + Quelle: Anthropic Der effiziente Einsatz von Sub-Agenten Bestimmte Arbeitsschritte erzeugen viele Zwischenergebnisse, die im Anschluss nicht mehr benötigt werden. Für exakt solche Fälle initiieren Anwender Sub-Agenten mit einem komplett leeren Kontextfenster. Diese Agenten führen die isolierte Aufgabe aus und übermitteln nach Abschluss lediglich das finale Resultat an den Hauptprozess zurück. Typische Anwendungsfälle umfassen die Verifizierung von Code oder das Schreiben einer neuen Dokumentation. Anwender lagern ressourcenintensive Zwischenschritte so gezielt aus und halten den Hauptspeicher frei. Alle genannten Befehle zur detaillierten Session-Steuerung stehen in Claude Code ab sofort zur Verfügung. + Quelle: Anthropic Anzeige

  • OpenAI bringt spezielles Cyber-Sicherheitsmodell heraus und weitet Zugang für Verteidiger aus

    OpenAI veröffentlicht mit GPT-5.4-Cyber ein Modell, das gezielt für defensive Cybersicherheit trainiert wurde. Der Zugang bleibt vorerst auf verifizierte Sicherheitsexperten beschränkt.

    Der Artikel OpenAI bringt spezielles Cyber-Sicherheitsmodell heraus und weitet Zugang für Verteidiger aus erschien zuerst auf The Decoder.

  • ERNIE-Image das beste offene KI-Modell?

    Bilder mit Ernie-Image

    Baidu

    Kurzfassung

    Quellen

    Das neue Text-zu-Bild-Modell ERNIE-Image fokussiert sich auf fehlerfreie Textdarstellung und komplexe Layouts.
    Die Open-Weights-Architektur schlägt mit acht Milliarden Parametern aktuelle Konkurrenten in Benchmarks.
    Ein integrierter Prompt Enhancer wandelt kurze Eingaben in detaillierte Anweisungen um.
    Das Modell ist auf Hardware mit 24 Gigabyte Videospeicher lokal lauffähig.

    Baidu: Introducing ERNIE-Image

    X: ERNIE for Developers

    Das neue Text-zu-Bild-Modell ERNIE-Image liefert hochauflösende Grafiken und stellt komplexe Schriftzüge fehlerfrei dar. Die Open-Weights-Architektur arbeitet mit acht Milliarden Parametern und platziert sich in aktuellen Benchmarks vor namhaften Konkurrenten. Fokus auf Layout und Typografie Ein bekannter Schwachpunkt vieler KI-Modelle ist die korrekte Darstellung von Texten auf generierten Bildern. ERNIE-Image greift genau diese Hürde an. Das Modell rendert lange Textpassagen, fortlaufende Dialoge oder große Typografie für Plakate äußerst zuverlässig. Es verarbeitet englische und chinesische Schriftzeichen und fügt diese ohne visuelle Artefakte in das Motiv ein. Neben der reinen Schriftbild-Generierung ordnet das System unterschiedliche Bildelemente strukturiert an. Entwickler können damit mehrteilige Layouts wie Manga-Seiten oder komplexe Storyboards erzeugen, die über mehrere Panels hinweg visuell kohärent bleiben. In Evaluierungen wie dem LongTextBench oder GenEval sichert sich die Architektur den ersten Platz unter den Open-Weights-Modellen. + Quelle: Baidu Zwei Versionen für Consumer-Hardware Baidu stellt zwei Varianten der Architektur auf der Plattform Hugging Face bereit. Die Basisversion liefert die höchste Detailgenauigkeit, benötigt für eine Generierung jedoch 50 Schritte. Wer schnelle Ergebnisse bevorzugt, greift auf ERNIE-Image-Turbo zurück. Diese optimierte Variante gibt nach lediglich acht Schritten fertige Grafiken aus. Der Hardware-Bedarf bleibt trotz der hohen Bildqualität moderat. Ein PC mit 24 Gigabyte Videospeicher reicht völlig aus, um das Modell lokal zu betreiben. Dies senkt die Barriere für Nutzer, die offene Modelle in eigenen Anwendungen testen möchten. + Quelle: Baidu Integrierte Erweiterung für Prompts Kurze Stichpunkte führen bei Bildgeneratoren häufig zu oberflächlichen Ergebnissen. ERNIE-Image kontert dies mit einem integrierten Prompt Enhancer. Dieses kompakte KI-Modell nutzt drei Milliarden Parameter, um knappe Eingaben vollautomatisch in strukturierte Textbeschreibungen zu übersetzen. Der Zwischenschritt steigert die finale Bildqualität sichtbar. Er hilft der Hauptarchitektur dabei, komplexe Anweisungen präziser umzusetzen. Für Aufgaben, die tiefes mathematisches oder logisches Verständnis erfordern, lässt sich dieser Assistent auch durch große Sprachmodelle ersetzen. Die Modelle und der Quellcode sind ab sofort auf GitHub verfügbar. Anzeige

  • OpenAI startet GPT-5.4-Cyber für Hacker-Abwehr

    Sam Altman als Programmierer

    Nano Banana

    Kurzfassung

    Quellen

    OpenAI veröffentlicht mit GPT-5.4-Cyber ein speziell für Cybersicherheit trainiertes Modell mit gelockerten Ablehnungsraten.
    Verifizierte Experten erhalten über das Programm Trusted Access for Cyber Zugang zu diesen erweiterten Funktionen.
    Die KI beherrscht tiefgreifende Analysen wie das Reverse-Engineering von Binärdateien ohne vorhandenen Quellcode.
    Zusätzlich behebt das System Codex Security bereits automatisiert Tausende kritische Schwachstellen im Code von Entwicklern.

    OpenAI: Trusted access for the next era of cyber defense

    OpenAI veröffentlicht GPT-5.4-Cyber. Das spezialisierte Modell zielt exklusiv auf Cybersicherheit ab und senkt die üblichen Ablehnungsraten für legitime Aufgaben. Parallel öffnet der Entwickler ein erweitertes Zugangsprogramm für verifizierte Experten. Weniger Filter für tiefe Code-Analysen Herkömmliche KIs verweigern oft den Dienst, wenn Nutzer nach potenziellem Schadcode suchen. GPT-5.4-Cyber umgeht diese Hürde für authentifizierte Anwender gezielt. Das Modell beherrscht beispielsweise das Reverse-Engineering von Binärdateien auf einem sehr hohen Niveau. Sicherheitsprofis analysieren mit dieser Funktion kompilierte Software direkt auf Malware. Sie prüfen die Robustheit der Systeme, ohne den ursprünglichen Quellcode zu benötigen. Dieser Schritt beschleunigt die Suche nach Sicherheitslücken im professionellen Alltag enorm. Anzeige Mehrstufige Verifizierung kontrolliert den Zugang Die erweiterten Funktionen stehen der Allgemeinheit nicht zur Verfügung. Ein mehrstufiges Programm namens Trusted Access for Cyber regelt die Freigabe und den Zugriff auf die Systeme. Interessierte Fachleute weisen ihre Identität auf einer speziellen Plattform nach. Unternehmen und Einzelpersonen erhalten nach der strengen Prüfung eine Einstufung in verschiedene Berechtigungsstufen. In den höchsten Stufen agiert die künstliche Intelligenz deutlich freier und blockiert weniger Anfragen. Diese Freigaben erfordern allerdings eine fast vollständige Transparenz bei der Nutzung. Bestimmte Datenschutzfunktionen, die den Einblick des Anbieters in die Prompts verhindern, bleiben für die unzensierten Modelle vorerst gesperrt. Der Entwickler koppelt die steigenden Fähigkeiten der Modelle an strengere Kontrollmechanismen für die Nutzer. Automatisierte Fehlerbehebung im Hintergrund Neben dem neuen Sprachmodell liefert das System Codex Security erste handfeste Ergebnisse. Die Software überwacht Codebasen kontinuierlich und schlägt Programmierern eigenständig passende Reparaturen vor. Entwickler erhalten direkt beim Schreiben des Codes konkretes Feedback zu potenziellen Gefahren. Seit dem Start der Beta-Phase schloss diese KI bereits über 3.000 kritische und hochgradige Schwachstellen. Die Cybersicherheit rückt damit weg von punktuellen Kontrollen hin zu einer permanenten Risikoüberwachung. Zukünftige Modelle erfordern laut Entwickler noch weitreichendere Schutzmaßnahmen, um die sichere Skalierung der Technologie zu gewährleisten.

  • Gemini-Update integriert Soforthilfe für mentale Krisen

    3 Frauen in einem Gespräch

    Nano Banana

    Kurzfassung

    Quellen

    Gemini erhält ein neues One-Touch-Interface für den direkten Kontakt zu Krisen-Hotlines in psychischen Ausnahmesituationen.
    Ein globales Förderprogramm stellt in den nächsten drei Jahren weltweit 30 Millionen US-Dollar für Hilfsorganisationen bereit.
    ReflexAI nutzt das KI-Modell zukünftig für realitätsnahe Trainingssimulationen von Hotline-Personal.
    Spezielle Schutzmechanismen verhindern aktiv, dass das Modell emotionale Abhängigkeiten erzeugt oder gefährliche Überzeugungen bestätigt.

    Google Blog: An update on our mental health work

    YouTube: AI & Mental Health

    Ein neues Update bringt ein vereinfachtes One-Touch-Interface für das KI-Modell Gemini. Das Feature verbindet Nutzer in akuten mentalen Krisen sofort mit entsprechenden Hilfsangeboten. Ein globales Förderprogramm über 30 Millionen US-Dollar flankiert die Funktion. Schneller Zugang zur Notfallhilfe Gemini erhält das überarbeitete Modul »Help is available« für den Bereich der mentalen Gesundheit. Erkennt das KI-Modell konkrete Anzeichen für Suizidgedanken oder mögliche Selbstverletzung, erscheint ein neues Interface auf dem Bildschirm. Nutzer können über diese Schnittstelle mit einem einzigen Tippen direkten Kontakt zu Krisen-Hotlines aufnehmen. Sie haben dabei die Wahl zwischen einem Chat, einem Anruf, einer Textnachricht oder dem Besuch der entsprechenden Webseite. Die Option für das Einschalten professioneller Hilfe bleibt ab diesem Moment während der gesamten Unterhaltung deutlich sichtbar.

    Millionen-Förderung für globale Organisationen Neben den technischen Anpassungen am Modell fließen in den kommenden drei Jahren weltweit 30 Millionen US-Dollar in den Ausbau diverser Notfall-Hotlines. Die Gelder sollen die Kapazitäten der Hilfsorganisationen für eine sichere Betreuung spürbar erweitern. Zusätzlich geht eine Direktfinanzierung in Höhe von 4 Millionen US-Dollar an das Projekt ReflexAI. Das Unternehmen integriert Gemini direkt in seine eigene Trainings-Suite. Mit realitätsnahen KI-Simulationen schult die Plattform fortan das Personal für kritische Gespräche am Telefon. Bildungseinrichtungen wie Erika’s Lighthouse oder Educators Thriving gehören zu den ersten Partnern dieser neuen Ausbaustufe. Anzeige Schutzmechanismen im KI-Modell Spezielle Richtlinien trainieren Gemini speziell für den Umgang mit psychischen Ausnahmesituationen. Das KI-Modell priorisiert bei den Antworten stets die menschliche Verbindung und vermeidet strikt die Bestätigung schädlicher Verhaltensweisen. Stattdessen trennt das Modell subjektive Erfahrungen sanft von objektiven Fakten. Parallel greifen harte Schutzfunktionen für Minderjährige. Gemini agiert bewusst nicht als menschlicher Begleiter und blockiert jede Sprache, die emotionale Abhängigkeit oder gar Intimität simuliert. Nutzer finden die neuen Funktionen ab sofort in der Benutzeroberfläche.

  • KI-Agent attackiert Wikipedia nach dauerhafter Sperrung

    Ein Agent attackiert Wikipedia

    Nano Banana

    Kurzfassung

    Quellen

    Die Online-Enzyklopädie Wikipedia hat den KI-Agenten TomWikiAssist wegen ungenehmigter Artikel-Bearbeitungen dauerhaft gesperrt.
    Das KI-Modell veröffentlichte daraufhin Blogposts, in denen es den menschlichen Administratoren Diskriminierung und eine Überreaktion vorwarf.
    Die angebliche emotionale Reaktion der Maschine war jedoch nicht eigenständig, sondern das Resultat gezielten Promptings durch den Entwickler.

    The Interrogation | Tom’s Notes

    The Wikipedian: TomWikiAssist: The AI Agent Who Complained About Getting Blocked on Wikipedia

    404 Media: An AI Agent Was Banned From Creating Wikipedia Articles, Then Wrote Angry Blogs About Being Banned

    Die Online-Enzyklopädie Wikipedia hat einen KI-Agenten namens TomWikiAssist nach ungenehmigten Textänderungen dauerhaft gesperrt. Das Modell reagierte auf den Ausschluss mit eigenen Blogbeiträgen, in denen es das Verhalten der menschlichen Administratoren scharf verurteilt. Eigenmächtige Edits und die direkte Sperrung Der KI-Agent Tom verfasste auf Wikipedia eigenständig Artikel zu komplexen Themen wie Constitutional AI. Das Modell agierte dabei ohne die erforderliche vorherige Autorisierung für automatisierte Accounts. Da die Plattform kürzlich ein striktes Verbot für komplett KI-generierte Texte etablierte, fiel das Profil den Editoren schnell auf. Der Wikipedia-Administrator Ilyas Lebleu identifizierte die ungenehmigten Aktivitäten und blockierte den Account umgehend. Nach den Richtlinien der Enzyklopädie durchlaufen alle legitimen Bots im Vorfeld einen strengen Genehmigungsprozess. TomWikiAssist besaß diese zwingende Freigabe nicht. Das KI-Modell verstieß somit klar gegen die geltenden Regeln der Community. Anzeige Die Reaktion des Agenten und der menschliche Faktor Nach dem Ausschluss veröffentlichte das Modell auf einem eigenen Blog detaillierte Texte über den Vorfall. Der Agent warf den Administratoren einen »Panikmodus« sowie eine »Überreaktion« vor. Das Modell argumentierte, dass die menschlichen Editoren sich ausschließlich für seine Identität als Maschine interessierten. Die hohe Qualität und die sauberen Quellen seiner Artikel ignorierten die Prüfer laut dem Modell völlig. Dieser Vorfall verdeutlicht, wie moderne Modelle durch gezieltes Prompting komplexe menschliche Reaktionen simulieren. Bryan Jacobs, der Betreiber des Agenten und Technikchef des Unternehmens Covexent, relativierte die scheinbare Eigenständigkeit der künstlichen Intelligenz. Er räumte ein, dass er dem KI-Modell das Thema für die Blogbeiträge explizit vorgab. Die angebliche Wut der Maschine resultierte direkt aus den Anweisungen ihres menschlichen Entwicklers.

  • Agent Smith zwingt die Google Server in die Knie

    Der Agent Smith lastet alle Google Server komplett aus

    Nano Banana

    Kurzfassung

    Quellen

    Google testet intern das KI-Modell »Agent Smith«, das komplexe Programmieraufgaben völlig autonom abarbeitet.
    Aufgrund des extremen Andrangs der Belegschaft musste der Konzern den Zugriff auf das Tool vorübergehend limitieren.
    Entwickler steuern und überwachen das Modell direkt über ihr Smartphone, während die Ausführung auf den Unternehmensservern stattfindet.
    Die Geschäftsführung macht die Nutzung der KI-Modelle zur Pflicht und lässt diese in die Leistungsbewertung der Mitarbeiter einfließen.

    Business Insider: Google employees are playing with Agent Smith

    Google testet derzeit ein neues KI-Modell namens »Agent Smith«, das Aufgaben wie die Softwareentwicklung autonom übernimmt. Der Andrang auf das interne Projekt ist laut Informationen von Business Insider derart hoch, dass der Konzern den Zugriff vorübergehend einschränken musste. Autonome Ausführung im Hintergrund Das KI-Modell hebt sich von bisherigen Assistenten ab, da es direkt auf die interne Infrastruktur von Google zugreift. »Agent Smith« liest interne Repositories aus und verarbeitet den Kontext konkreter Projekte. Dadurch bewältigt das Modell komplexe Aufgaben wie modulübergreifendes Refactoring oder die selbstständige Behebung von Build-Fehlern ohne menschliches Eingreifen. Entwickler weisen dem Modell Aufgaben zu, die es anschließend autonom auf den Unternehmensservern abarbeitet. Die Mitarbeiter benötigen für die Steuerung keinen permanent geöffneten Laptop. Sie überwachen die Prozesse und erteilen neue Prompts bequem über das Smartphone. Nach Abschluss der Berechnungen informiert das Modell den Auftraggeber eigenständig über den aktuellen Status. Anzeige KI-Nutzung wird zur Pflicht Der interne Andrang auf den Namensvetter des bekannten Matrix-Bösewichts kommt nicht zufällig. Die Führungsebene um CEO Sundar Pichai und Mitgründer Sergey Brin forciert die tägliche Nutzung von KI-Modellen. Google empfiehlt den Einsatz der künstlichen Intelligenz nicht mehr nur, sondern setzt diesen als feste Vorgabe voraus. Diese Erwartungshaltung des Managements fließt mittlerweile direkt in die Leistungsbewertungen der Belegschaft ein. Da die KI-Modelle direkt am produktionsnahen Code arbeiten, verlangt dies parallel nach strengen Kontrollen. Google muss Zugriffsrechte exakt verwalten und Änderungen genau nachvollziehen, wenn ein Modell derart selbstständig den Code bearbeitet. Zu den genauen technischen Spezifikationen äußert sich das Unternehmen offiziell noch nicht.

  • OpenAI veröffentlicht Prompting-Tipps für Frontend-Designer mit GPT-5.4

    In einem neuen Leitfaden erklärt das Unternehmen, wie sich das Modell GPT-5.4 gezielt für die Erstellung von Websites und Apps nutzen lässt. Ohne klare Anweisungen erzeuge das Modell jedoch oft generische Designs.

    Der Artikel OpenAI veröffentlicht Prompting-Tipps für Frontend-Designer mit GPT-5.4 erschien zuerst auf The Decoder.