Microsoft Paza löst Datenproblem bei KI-Modellen für Afrika

Ein Microsoft Bild

Nano Banana

Kurzfassung

Quellen

Microsoft Research veröffentlicht mit Paza neue Benchmarks und KI-Modelle speziell für 29 afrikanische Sprachen. Der PazaBench-Datensatz korrigiert zahlreiche Fehler in bisherigen Standards und ermöglicht präzisere Leistungsmessungen. Das feinabgestimmte Modell paza-whisper-large-v3-turbo senkt die Fehlerrate bei der Spracherkennung um über 50 Prozent. Alle Modelle und Datensätze sind ab sofort als Open Source auf der Plattform Hugging Face verfügbar.

Paza: Introducing automatic speech recognition benchmarks and models for low resource languages

Paza – a microsoft Collection (Hugging Face)

microsoft/paza-whisper-large-v3-turbo (Modellkarte)

microsoft/paza-Phi-4-multimodal-instruct (Modellkarte)

Microsoft auf Hugging Face (inkl. ASR Leaderboard for low resource languages)

Sprachmodelle funktionieren hervorragend auf Englisch oder Deutsch, scheitern aber oft an Sprachen mit geringer Datenbasis. Microsoft Research reagiert darauf mit dem Projekt Paza und veröffentlicht ab sofort verbesserte Benchmarks sowie spezialisierte Modelle für 29 afrikanische Sprachen auf Hugging Face.

Fokus auf vernachlässigte Sprachen Moderne KI-Systeme benötigen riesige Mengen an Trainingsdaten. Für sogenannte „Low-Resource Languages“, zu denen viele afrikanische Dialekte gehören, existieren diese Daten kaum in ausreichender Qualität. Das führt dazu, dass globale KI-Lösungen in diesen Regionen oft unbrauchbar sind. Microsoft Research Africa adressiert dieses Ungleichgewicht nun direkt. Mit Paza stellt das Team keine theoretische Arbeit vor, sondern liefert nutzbare Werkzeuge für Entwickler. Der Release umfasst sowohl einen neuen Benchmark-Datensatz als auch speziell feinabgestimmte Versionen bekannter Modelle wie Whisper und Phi-4. Anzeige PazaBench setzt auf Qualität vor Quantität Herzstück der Veröffentlichung ist PazaBench. Dieser Evaluierungsdatensatz deckt 39 Sprachen ab, darunter 29 afrikanische. Anders als bisherige Datensätze beschränkt sich PazaBench nicht auf generische Sätze. Die Daten stammen aus fünf praxisrelevanten Domänen: Landwirtschaft, Finanzen, Gesundheit, Nachrichten und Religion. Die Grundlage bildete der bekannte FLEURS-102-Datensatz von Google. Microsoft hat diesen jedoch nicht einfach übernommen, sondern durch Muttersprachler massiv überarbeiten lassen. Viele Transkriptionsfehler und Ungenauigkeiten des Originals wurden korrigiert. Das Ergebnis ist ein verlässlicherer Maßstab, um die Leistung von Spracherkennungsmodellen (ASR) in diesen spezifischen Sprachen wirklich beurteilen zu können. + Quelle: Microsoft Massive Reduktion der Fehlerraten Neben den Daten liefert Microsoft auch die passenden Modelle. Besonders hervorzuheben ist paza-whisper-large-v3-turbo. Dieses Modell wurde spezifisch auf den neuen Daten trainiert und zeigt deutliche Verbesserungen gegenüber der Basisversion. Die Ergebnisse auf dem PazaBench sind messbar. Das Modell erreicht eine Word Error Rate (WER) von 19,3 Prozent. Im Vergleich zum unveränderten Whisper-Modell entspricht dies einer Reduktion der Fehlerquote um rund 52 Prozent. Zusätzlich veröffentlichte das Team paza-Phi-4-multimodal-instruct. Dieses Modell erweitert die Fähigkeiten über reine Transkription hinaus und ermöglicht multimodale Interaktionen in den unterstützten Sprachen. Ursprung in der Landwirtschaft Das Projekt entstand nicht im luftleeren Raum, sondern als Teil von „Project Gecko“. Diese Initiative zielt darauf ab, Kleinbauern durch KI-gestützte Beratung zu unterstützen. Apps wie „Farmer.Chat“ benötigen zwingend eine präzise Spracherkennung, da viele Nutzer ihre Anfragen mündlich in lokalen Dialekten stellen. Die neuen Modelle sind ab sofort als Open Source auf Hugging Face verfügbar. Sie bieten Entwicklern die Möglichkeit, Anwendungen zu bauen, die auch außerhalb der westlichen Sprachräume zuverlässig funktionieren.