Schlagwort: SDK

  • ElevenLabs verwandelt Chatbots in Voicebots mit einem Prompt

    Text wird zu Sprache

    GPT-Images-2.0

    Kurzfassung

    Quellen

    ElevenLabs hat die neue Audio-Ebene Speech Engine für bestehende Chatbots veröffentlicht.
    Die Integration erfolgt über ein SDK, ohne die vorhandene LLM- oder RAG-Architektur zu verändern.
    Integrierte Funktionen ermöglichen eine präzise Sprechpausen-Erkennung und ein automatisches Unterbrechungs-Management.
    Die Technologie unterstützt die Transkription in 90 Sprachen und die Sprachausgabe in über 70 Sprachen.

    ElevenLabs – Speech Engine Produktseite
    ElevenLabs Dokumentation – Speech Engine Übersicht
    ElevenLabs Dokumentation – Speech Engine Quickstart
    ElevenLabs Dokumentation – API-Referenz: Speech Engine erstellen
    ElevenLabs Dokumentation – API-Referenz: Speech Engine abrufen

    Ein einziger Prompt genügt, um bestehende textbasierte Chatbots in vollwertige Voicebots zu verwandeln. Die neue Audio-Ebene »Speech Engine« von ElevenLabs ermöglicht diese direkte Transformation, ohne dass Entwickler die bestehende KI-Infrastruktur oder Datenbasis anpassen müssen. Flexibler Audio-Aufsatz für bestehende KI-Modelle Die Integration erfolgt über ein SDK für JavaScript oder Python und setzt direkt auf der vorhandenen Infrastruktur auf. Entwickler behalten dadurch die vollständige Kontrolle über die Gesprächslogik, die Datenabfrage per RAG sowie das gewählte KI-Modell. Die Verbindung zum Server wird über das WebSocket-Protokoll hergestellt. Das SDK bietet eine integrierte Stream-Extraktion für etablierte KI-Modelle von OpenAI, Anthropic und Google. Für andere Anbieter lässt sich die Textausgabe als einfacher String übertragen. Im Gegensatz zur vollständig verwalteten Plattform ElevenAgents richtet sich diese Lösung an Entwickler, die eigene Inferenz-Strukturen nutzen wollen. + Quelle: Elevenlabs Zwei Prompts zum Glück

    Server SDK Prompt

    Copy

    import { ElevenLabsClient } from „@elevenlabs/elevenlabs-js“;
    import „dotenv/config“;
    const elevenlabs = new ElevenLabsClient({
    apiKey: process.env.ELEVENLABS_API_KEY,
    });
    const engine = await elevenlabs.speechEngine.create({
    name: „My Speech Engine“,
    speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: „wss://abc123.ngrok.io/ws“,
    },
    });
    console.log(„Speech Engine ID:“, engine.engineId);

    Prompt vollständig anzeigen

    Client SDK

    Copy

    import express from „express“;
    import { ElevenLabsClient } from „@elevenlabs/elevenlabs-js“;
    import „dotenv/config“;

    const app = express();
    const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
    const speechEngineId = „seng_8k3m9xr4hjnfg983brhmhkd98n6“;

    app.get(„/api/token“, async (req, res) => {
    const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
    res.json({ token });
    });

    app.listen(3002, () => console.log(„Token server listening on port 3002“));

    Prompt vollständig anzeigen

    Intelligente Steuerung natürlicher Konversationen Die neue Audio-Ebene kombiniert mehrere spezialisierte KI-Modelle, um eine minimale Latenz im realen Einsatz zu gewährleisten. Die Transkription der Nutzersprache unterstützt mehr als 90 Sprachen. Für die eigentliche Sprachausgabe stehen über 70 Sprachen sowie eine Bibliothek von 11.000 vorgefertigten Stimmen zur Verfügung. Für einen flüssigen Austausch sorgen integrierte Automatismen: Sprechpausen-Erkennung: Das KI-Modell unterscheidet präzise zwischen kurzen Pausen und dem tatsächlichen Ende einer Aussage. Unterbrechungs-Management: Sobald der Nutzer spricht, wird die Audioausgabe automatisch über ein Abbruchsignal gestoppt. Geräuschfilterung: Hintergrundgeräusche werden isoliert, sodass nur klare Audiosignale die Transkription erreichen. Die Steuerung der Sitzungen im Browser oder in mobilen Anwendungen wird über eine WebRTC-Token-Anbindung realisiert. Damit steht Entwicklern eine umfassende Architektur für die direkte Sprachinteraktion zur Verfügung. Anzeige

  • OpenAI aktualisiert Agents-SDK mit neuer Sandbox-Unterstützung für sicherere KI-Agenten

    OpenAI erweitert sein Agents SDK um Sandbox-Umgebungen und neue Werkzeuge. Entwickler können damit KI-Agenten bauen, die Dateien prüfen, Code schreiben und komplexe Aufgaben sicher in abgeschotteten Bereichen erledigen.

    Der Artikel OpenAI aktualisiert Agents-SDK mit neuer Sandbox-Unterstützung für sicherere KI-Agenten erschien zuerst auf The Decoder.

  • Das Ende des Kontext-Wahns

    Ein Dauerläufer mit hohem Kontextfenster

    Nano Banana

    Kurzfassung

    Quellen

    Anthropic veröffentlicht ein neues SDK, das den Gedächtnisverlust von KI-Agenten bei langlaufenden Aufgaben eliminiert. Das System trennt die Arbeit in einen vorbereitenden Initializer-Agenten und einen ausführenden Coding-Agenten auf. Durch persistentes State Management können komplexe Prozesse nun über mehrere Sitzungen hinweg ohne Informationsverlust fortgesetzt werden. Die Lösung ermöglicht erstmals zuverlässige Enterprise-Automatisierung jenseits von einfachen Chat-Interaktionen.

    Anthropic Engineering Blog – Effective harnesses for long-running agents

    VentureBeat – Anthropic says it solved the long-running AI agent problem

    DERA.AI – Anthropic Solves AI’s Memory Problem

    Industrial PC World – Anthropic’s new Claude SDK finally solves the AI agent memory problem

    Hacker News – Effective harnesses for long-running agents

    Langlaufende KI-Agenten scheiterten bisher oft an einem simplen Limit: Sie vergaßen schlichtweg ihren Auftrag oder den bisherigen Fortschritt, sobald die Session zu komplex wurde. Anthropic liefert nun die technische Antwort auf dieses Gedächtnis-Problem. Für Entwickler bedeutet das endlich zuverlässige Automatisierung komplexer Prozesse über mehrere Sitzungen hinweg. Schluss mit der Amnesie bei komplexen Aufgaben Bisher endeten ambitionierte Coding-Projekte oder umfangreiche Datenanalysen oft abrupt, sobald das Kontextfenster des Modells gefüllt war. Der Agent verlor den Überblick und halluzinierte oder brach ab. Anthropic begegnet diesem Hindernis mit einer neuen Architektur, die speziell für lang andauernde Aufgaben entwickelt wurde. Anstatt zu versuchen, den gesamten Verlauf in einen einzigen Chat zu pressen, setzt die Lösung auf eine strukturierte Aufteilung der Arbeitsschritte. Das neue SDK ermöglicht es Claude, über die Grenzen einer einzelnen Sitzung hinaus zu „denken“. Das System speichert den Status Quo extern und lädt bei Bedarf nur die relevanten Informationen neu. Das verhindert den klassischen „Overflow“, bei dem wichtige Anweisungen vom Anfang der Konversation hinten herunterfallen. Anzeige Der Initializer und der Coding-Agent Die technische Umsetzung basiert auf einem dualen Ansatz, den Anthropic als „Harness“ bezeichnet. Zuerst analysiert ein spezialisierter „Initializer-Agent“ die Umgebung. Er erstellt eine präzise Karte des Repositorys und definiert die Spielregeln. Er verschafft sich also den Überblick, den das eigentliche Arbeitsmodell benötigt, ohne bereits Ressourcen für die Problemlösung zu verschwenden. Anschließend übernimmt der „Coding-Agent“. Dieser arbeitet nicht endlos am Stück, sondern erledigt Aufgaben in diskreten Einheiten. Er zieht sich die nötigen Informationen vom Initializer, führt einen Schritt aus – etwa das Schreiben eines Tests oder das Refactoring einer Klasse – und speichert das Ergebnis. So bleibt der Kontext frisch und relevant, ohne das Modell mit unnötigen Altlasten aus vorherigen, bereits abgeschlossenen Schritten zu überfluten. Persistenz für echte Enterprise-Automatisierung Der entscheidende Vorteil für die Industrie liegt in der Zustandsverwaltung (State Management). Entwickler können den Status einer Aufgabe nun persistent speichern und den Agenten exakt dort weiterarbeiten lassen, wo er aufgehört hat – selbst wenn dazwischen Tage liegen oder der Server neu gestartet wurde. Das SDK bietet hierfür konkrete Werkzeuge: Pruning: Automatisches Entfernen irrelevanter Chat-Verläufe, um Token zu sparen. Summarization: Komprimierung vergangener Schritte, um das Gedächtnis effizient zu nutzen. Loop-Prevention: Mechanismen, die erkennen, wenn ein Agent sich im Kreis dreht, und eingreifen. Anthropic schließt damit eine kritische Lücke zwischen theoretischem Potenzial und praktischer Anwendbarkeit autonomer Systeme, die nun Aufgaben erledigen können, die weit über einen einfachen Chat-Dialog hinausgehen.

  • OpenAI-Agenten werden schlauer: Bessere Werkzeugnutzung und Unterbrechungstoleranz

    OpenAI hat neue Funktionen für seine Agenten-Entwicklung veröffentlicht. Die Agents SDK ist jetzt auch in TypeScript verfügbar und bietet damit denselben Funktionsumfang wie die Python-Version.

    Der Artikel OpenAI-Agenten werden schlauer: Bessere Werkzeugnutzung und Unterbrechungstoleranz erschien zuerst auf THE-DECODER.de.