Schlagwort: Sprache

Microsoft zeigt neues Sprache-zu-Text-Modell MAI-Transcribe-1

MAI-Transcribe-1 soll Sprache in 25 Sprachen schnell und genau in Text umwandeln, auch bei Hintergrundgeräuschen. Microsoft setzt das Modell bereits in eigenen Produkten ein.

Der Artikel Microsoft zeigt neues Sprache-zu-Text-Modell MAI-Transcribe-1 erschien zuerst auf The Decoder.
OpenAI zeigt, wie intern KI-Agenten Datenanalysen übernehmen

OpenAI hat einen internen KI-Datenagenten entwickelt, der Mitarbeitern komplexe Datenanalysen in natürlicher Sprache ermöglicht. Eine Schlüsselmethode namens „Codex Enrichment“ durchsucht dabei die Codebasis, um Tabellen wirklich zu verstehen.

Der Artikel OpenAI zeigt, wie intern KI-Agenten Datenanalysen übernehmen erschien zuerst auf The Decoder.
Metas neues KI-System versteht und transkribiert gesprochene Sprache in mehr als 1.600 Sprachen

Laut Metas Forschungsabteilung Fundamental AI Research (FAIR) soll Omnilingual ASR gesprochene Sprache in über 1.600 Sprachen transkribieren können.

Der Artikel Metas neues KI-System versteht und transkribiert gesprochene Sprache in mehr als 1.600 Sprachen erschien zuerst auf The Decoder.
Adobe MAX 2025: Jede Menge KI-Ankündigungen

Adobe

Kurzfassung
▾

Quellen
▾

Adobe integriert KI-Assistenten tief in alle Creative Cloud Apps wie Photoshop und Premiere Pro. Mit Firefly Audio werden neue Werkzeuge zur Generierung von Soundtracks und realistischer Sprache eingeführt. Firefly Image 5 ermöglicht höhere Auflösungen und trainierbare „Custom Models“ für eigene Bildstile. Project Moonlight wurde als übergreifender KI-Agent angekündigt, der als kreativer Direktor app-übergreifend arbeitet.

Adobe Firefly Delivers Groundbreaking AI Audio, Video and Imaging Innovations Adobe Introduces New AI Assistant in Adobe Express that Unlocks Creativity for All Adobe Expands Creative Possibility with AI for Every Creator at Adobe MAX 2025 Adobe Max 2025: all the latest creative tools and AI announcements Adobe Firefly Image 5 brings support for layers, will let creators make custom models

Adobe hat auf seiner MAX 2025 Konferenz eine massive Erweiterung seiner KI-Funktionen vorgestellt. Das Unternehmen integriert KI-Assistenten tief in seine gesamte Creative Cloud. Neue Firefly-Modelle erzeugen Bilder, Ton und Sprache, während ein neuer Agent Arbeitsabläufe über alle Programme hinweg steuern soll. Der Assistent in jeder Werkzeugkiste Adobe bringt KI-Assistenten in alle wichtigen Programme wie Photoshop, Premiere Pro und Illustrator. Diese Helfer sollen Routineaufgaben automatisieren und komplexe Prozesse vereinfachen. Sie arbeiten auch in der Einsteiger-App Adobe Express, um neuen Nutzern den Start zu erleichtern. Nutzer können die Assistenten per Sprache oder Texteingabe steuern. Anstatt Menüs zu durchsuchen oder Werkzeuge mühsam zu kombinieren, sollen Kreative einfach beschreiben, was sie benötigen. Der Assistent greift dann auf die Funktionen der jeweiligen Software zu. Adobe will damit die Einstiegshürde senken und Profis deutlich schneller machen. + Quelle: Adobe Firefly lernt Hören und Sprechen Die größte Neuerung betrifft die Audiobearbeitung. Mit „Firefly Audio“ stellt Adobe erstmals Werkzeuge zur Erzeugung von Musik und Sprache vor. Die Funktion „Generate Soundtrack“ erstellt passende Hintergrundmusik basierend auf einer Beschreibung der gewünschten Stimmung, des Tempos oder der Szene. Parallel dazu kann „Generate Speech“ geschriebenen Text in realistisch klingende Stimmen umwandeln. Gleichzeitig erhält das Bildmodell ein wichtiges Update. Firefly Image 5 liefert Bilder mit höherer nativer Auflösung und einem besseren Verständnis für Details in den Textbefehlen. Es unterstützt zudem die Erstellung eigener, trainierbarer Modelle. Diese „Custom Models“ erlauben es Unternehmen, die KI auf ihren eigenen Stil und ihre Bildsprache zu trainieren. + Quelle: Adobe Project Moonlight als kreativer Direktor Adobe präsentierte auch einen Blick in die Zukunft namens „Project Moonlight“. Dieses System arbeitet als ein übergreifender KI-Agent, der den gesamten kreativen Prozess über mehrere Anwendungen hinweg verstehen und koordinieren soll. Es agiert wie ein digitaler Kreativdirektor. Moonlight könnte beispielsweise ein Konzept aus einer Textdatei nehmen, passende Bilder in Firefly generieren, diese in Photoshop bearbeiten und anschließend in ein Adobe Express-Layout für soziale Medien einfügen. Dieser Ansatz zielt darauf ab, den gesamten Workflow zu automatisieren. Die vorgestellten Werkzeuge zeigen deutlich, wie tief KI künftig den kreativen Alltag bestimmen wird.
Alibaba veröffentlicht leistungsfähiges Open Source Sprach-Vision-Modell Qwen3-VL

Alibaba hat mit Qwen3-VL ein neues Open-Source-Modell veröffentlicht, das Sprache und Bild kombiniert.

Der Artikel Alibaba veröffentlicht leistungsfähiges Open Source Sprach-Vision-Modell Qwen3-VL erschien zuerst auf THE-DECODER.de.
Hirn-Decoder: KI verwandelt Gedanken in Sprache

Hirn-Decoder: KI verwandelt Gedanken in Sprache Wissenschaftler knacken inneres Sprechen mit erstaunlicher Präzision. Kann bald jeder deine Gedanken lesen? Kurzfassung | Andreas Becker, 18.08.25
gpt-image-1 | All-AI.de EINLEITUNG Forscher haben ein System entwickelt, das den inneren Monolog von gelähmten Menschen in Text umwandelt – mit erstaunlicher Genauigkeit. Das funktioniert allein durch Gedanken, ohne Stimme oder Bewegung. Ein KI-Modell entschlüsselt dabei Gehirnaktivität in Echtzeit. Könnte das der Weg sein, wie Betroffene eines Tages wieder selbstbestimmt kommunizieren? NEWS Worte aus Gedanken Bei der Studie wurden mehreren gelähmten Probanden feine Elektroden in den Motorkortex implantiert – die Hirnregion, die Sprache steuert. Die Teilnehmer konnten nicht mehr sprechen, sollten sich aber Sätze innerlich vorsagen. Das System erkannte daraus bis zu 74 Prozent der Wörter korrekt. Das ist ein neuer Spitzenwert für sogenannte Brain-Computer-Interfaces (BCI), die ohne Muskelbewegung auskommen. Das Besondere: Die KI musste keine hörbaren Laute erkennen. Sie lernte, aus reiner Hirnaktivität Phoneme herauszulesen – also die kleinsten Bausteine gesprochener Sprache. Diese wurden dann mithilfe eines großen Sprachmodells zu ganzen Sätzen zusammengesetzt. So konnte etwa ein Satz wie „Ich brauche Wasser“ allein durch Gedanken erfasst und in Textform ausgegeben werden. Technik mit Schutzfunktion Um Missbrauch zu verhindern, ließ sich das System nur durch eine vorher festgelegte Gedanken-Passphrase aktivieren – etwa „Chitty Chitty Bang Bang“. Erst nach dem innerlichen Aussprechen dieser Worte begann die KI mit der Übersetzung. Damit soll verhindert werden, dass zufällige Gedankenfragmente mitgelesen werden. Die Erkennungsrate dieser Passwörter lag bei über 98 Prozent. Das System arbeitete mit einem Wortschatz von rund 125.000 Begriffen – deutlich mehr als frühere Ansätze. Trotzdem gab es Schwächen. Nicht alle Sätze wurden gleich gut erkannt, die Technik reagierte sensibel auf Schwankungen der Hirnsignale. Noch sind große Datenmengen und individuelle Trainings nötig, um das System zuverlässig zu machen. Ausblick mit Hürden Gedankenlesen im Alltag bleibt vorerst Science-Fiction. Doch für Menschen, die ihre Sprache verloren haben, könnte diese Technik in Zukunft neue Wege der Kommunikation eröffnen. Noch fehlt es an robuster Hardware, drahtlosen Implantaten und langzeittauglichen Systemen. Auch ethische Fragen stehen im Raum. Doch die Richtung ist klar: Die Grenze zwischen Denken und Sprechen beginnt zu verschwimmen. DEIN VORTEIL – DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
Ein neues Hirnimplantat erkennt inneres Sprechen und übersetzt es in Echtzeit in Text.
Bis zu 74 Prozent der Sätze wurden korrekt entschlüsselt – ganz ohne hörbare Sprache.
Eine mentale Passphrase schützt vor ungewolltem Gedankenlesen und erhöht die Privatsphäre.
Der Durchbruch könnte die Kommunikation für gelähmte Menschen revolutionieren.
QUELLEN
Nature
Cell
Stanford Medicine
Financial Times
Scientific American
Google launcht Opal: KI-Mini-Apps per natürlicher Sprache ohne Code erstellen

Google startet Opal – ein Tool, das KI-Mini-Apps ohne Programmierung per natürlicher Sprache erstellt.

Der Artikel Google launcht Opal: KI-Mini-Apps per natürlicher Sprache ohne Code erstellen erschien zuerst auf THE-DECODER.de.
Google Gemini 2.5 kann Bildinhalte jetzt per natürlicher Sprache analysieren und markieren

Google hat eine neue Funktion für das KI-Modell Gemini 2.5 vorgestellt, die es ermöglicht, Bildinhalte direkt über natürliche Sprache zu analysieren und zu markieren.

Der Artikel Google Gemini 2.5 kann Bildinhalte jetzt per natürlicher Sprache analysieren und markieren erschien zuerst auf THE-DECODER.de.