Speech – MEIDCRAFT

Text wird zu Sprache

GPT-Images-2.0

Kurzfassung
▾

Quellen
▾

ElevenLabs hat die neue Audio-Ebene Speech Engine für bestehende Chatbots veröffentlicht.
Die Integration erfolgt über ein SDK, ohne die vorhandene LLM- oder RAG-Architektur zu verändern.
Integrierte Funktionen ermöglichen eine präzise Sprechpausen-Erkennung und ein automatisches Unterbrechungs-Management.
Die Technologie unterstützt die Transkription in 90 Sprachen und die Sprachausgabe in über 70 Sprachen.

ElevenLabs – Speech Engine Produktseite
ElevenLabs Dokumentation – Speech Engine Übersicht
ElevenLabs Dokumentation – Speech Engine Quickstart
ElevenLabs Dokumentation – API-Referenz: Speech Engine erstellen
ElevenLabs Dokumentation – API-Referenz: Speech Engine abrufen

Ein einziger Prompt genügt, um bestehende textbasierte Chatbots in vollwertige Voicebots zu verwandeln. Die neue Audio-Ebene »Speech Engine« von ElevenLabs ermöglicht diese direkte Transformation, ohne dass Entwickler die bestehende KI-Infrastruktur oder Datenbasis anpassen müssen. Flexibler Audio-Aufsatz für bestehende KI-Modelle Die Integration erfolgt über ein SDK für JavaScript oder Python und setzt direkt auf der vorhandenen Infrastruktur auf. Entwickler behalten dadurch die vollständige Kontrolle über die Gesprächslogik, die Datenabfrage per RAG sowie das gewählte KI-Modell. Die Verbindung zum Server wird über das WebSocket-Protokoll hergestellt. Das SDK bietet eine integrierte Stream-Extraktion für etablierte KI-Modelle von OpenAI, Anthropic und Google. Für andere Anbieter lässt sich die Textausgabe als einfacher String übertragen. Im Gegensatz zur vollständig verwalteten Plattform ElevenAgents richtet sich diese Lösung an Entwickler, die eigene Inferenz-Strukturen nutzen wollen. + Quelle: Elevenlabs Zwei Prompts zum Glück

Server SDK Prompt

Copy

import { ElevenLabsClient } from „@elevenlabs/elevenlabs-js“;
import „dotenv/config“;
const elevenlabs = new ElevenLabsClient({
apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
name: „My Speech Engine“,
speechEngine: {
// Note we use the wss protocol instead of https
wsUrl: „wss://abc123.ngrok.io/ws“,
},
});
console.log(„Speech Engine ID:“, engine.engineId);

Prompt vollständig anzeigen

Client SDK

Copy

import express from „express“;
import { ElevenLabsClient } from „@elevenlabs/elevenlabs-js“;
import „dotenv/config“;

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = „seng_8k3m9xr4hjnfg983brhmhkd98n6“;

app.get(„/api/token“, async (req, res) => {
const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
res.json({ token });
});

app.listen(3002, () => console.log(„Token server listening on port 3002“));

Prompt vollständig anzeigen

Intelligente Steuerung natürlicher Konversationen Die neue Audio-Ebene kombiniert mehrere spezialisierte KI-Modelle, um eine minimale Latenz im realen Einsatz zu gewährleisten. Die Transkription der Nutzersprache unterstützt mehr als 90 Sprachen. Für die eigentliche Sprachausgabe stehen über 70 Sprachen sowie eine Bibliothek von 11.000 vorgefertigten Stimmen zur Verfügung. Für einen flüssigen Austausch sorgen integrierte Automatismen: Sprechpausen-Erkennung: Das KI-Modell unterscheidet präzise zwischen kurzen Pausen und dem tatsächlichen Ende einer Aussage. Unterbrechungs-Management: Sobald der Nutzer spricht, wird die Audioausgabe automatisch über ein Abbruchsignal gestoppt. Geräuschfilterung: Hintergrundgeräusche werden isoliert, sodass nur klare Audiosignale die Transkription erreichen. Die Steuerung der Sitzungen im Browser oder in mobilen Anwendungen wird über eine WebRTC-Token-Anbindung realisiert. Damit steht Entwicklern eine umfassende Architektur für die direkte Sprachinteraktion zur Verfügung. Anzeige

Schlagwort: Speech

ElevenLabs verwandelt Chatbots in Voicebots mit einem Prompt