Schlagwort: Benutzeroberflächen

  • Phi-4-Reasoning-Vision wertet Benutzeroberflächen und Dokumente aus

    Ein Windows Logo in besonderem Style

    Nano Banana

    Kurzfassung

    Quellen

    Microsoft hat das KI-Modell Phi-4-Reasoning-Vision mit 15 Milliarden Parametern als Open-Weight-Version veröffentlicht.
    Die Software kombiniert reine Bilderkennung mit logischen Denkprozessen, um komplexe Diagramme oder Benutzeroberflächen strukturiert zu verstehen.
    Entwickler können das System auf Plattformen wie GitHub herunterladen und für ressourcenschonende, lokale Agenten-Anwendungen nutzen.

    Microsoft Research Blog – Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model

    Azure AI Foundry (Model Catalog) – Phi-4-Reasoning-Vision-15B

    Microsoft hat mit Phi-4-Reasoning-Vision-15B ein neues KI-Modell veröffentlicht. Die Software kombiniert detaillierte Bilderkennung mit logischen Analysefähigkeiten und ist ab sofort als offene Open-Weight-Version für Entwickler frei zugänglich. Anzeige Bilder verstehen und logisch einordnen Bislang beschränkten sich viele kompakte KI-Modelle darauf, Objekte auf Fotos lediglich zu benennen. Das neue System mit 15 Milliarden Parametern ordnet die Bildinhalte hingegen in einen größeren Kontext ein. Es interpretiert komplexe Diagramme, eingescannte Dokumente oder die Benutzeroberfläche von Software. Die KI verbindet diese visuellen Strukturen mit Textinformationen. Darauf basierend führt sie mehrstufige logische Denkprozesse durch, das sogenannte Reasoning. So erkennt das Programm beispielsweise Veränderungen in einer Abfolge von Bildern und zieht daraus eigenständig Schlüsse. Beim Training der Software setzte Microsoft auf eine gezielte Mischung von Daten. Die Entwickler kombinierten Informationen, die logisches Denken erfordern, mit allgemeinen Trainingsdaten. Diese Vorgehensweise sorgt laut den Entwicklern für eine hohe Präzision bei der Auswertung visueller Inhalte, ohne die Effizienz zu beeinträchtigen. + Quelle: Microsoft Steuerung von Benutzeroberflächen Ein konkretes Einsatzgebiet ist die Unterstützung bei mathematischen und naturwissenschaftlichen Problemstellungen. Die Software analysiert Graphen oder verschachtelte Formeln und leitet daraus korrekte Lösungswege ab. Darüber hinaus eignet sich das Modell für Software-Agenten. Diese digitalen Assistenten können direkt auf grafischen Benutzeroberflächen von Computern oder Smartphones agieren. Ein Programm liest dabei den aktuellen Bildschirminhalt aus, versteht die Anordnung von Schaltflächen oder Textfeldern und entscheidet über den nächsten Klick. In einem Online-Shop wertet die KI beispielsweise Produktbilder und Menüs in Echtzeit aus, um selbstständig eine bestimmte Aktion durchzuführen. + Quelle: Microsoft Effizienz und offene Verfügbarkeit Trotz der umfangreichen Fähigkeiten bleibt der Rechenaufwand vergleichsweise gering. Das Modell bietet Entwicklern ein ausgewogenes Verhältnis zwischen hoher Genauigkeit und niedrigen Betriebskosten. Durch die schnelle Verarbeitung der Daten lassen sich interaktive Anwendungen mit sehr kurzen Reaktionszeiten umsetzen. Interessierte laden das System ab sofort herunter. Microsoft stellt die Dateien über die Plattformen Microsoft Foundry, Hugging Face und GitHub zur Verfügung. Dies ermöglicht eine lokale Nutzung in eigenen Projekten, ohne permanent auf teure Cloud-Anbindungen angewiesen zu sein. Entwickler integrieren die Technik so direkt und datenschutzfreundlich in ihre bestehenden Arbeitsabläufe. Anzeige