Schlagwort: Deepseek

  • Deepseek soll tausende geschmuggelte Nvidia-Chips fürs KI-Training nutzen

    Deepseek entwickelt sein nächstes großes KI-Modell offenbar mit Tausenden von Nvidias neuesten Blackwell-Chips, obwohl diese wegen US-Exportverboten gar nicht nach China geliefert werden dürfen. Ein Bericht des Tech-Dienstes The Information, der sich auf sechs eingeweihte Quellen stützt, birgt erheblichen politischen Sprengstoff.

    Der Artikel Deepseek soll tausende geschmuggelte Nvidia-Chips fürs KI-Training nutzen erschien zuerst auf The Decoder.

  • GPT 5 und Gemini 3 waren mal gut…

    Ein großer Wal sitzt auf dem White House

    Nano Banana

    Kurzfassung

    Quellen

    DeepSeek veröffentlicht mit V3.2 und der Speciale-Variante neue Open-Weights-Modelle, die dank effizienter „Sparse Attention“ und massivem Post-Training GPT-5-Niveau erreichen. In autonomen Agenten-Benchmarks und Coding-Aufgaben schlägt das Modell die US-Konkurrenz und löst über 70 Prozent komplexer GitHub-Issues. Die Speciale-Version erzielt Gold-Status bei Mathematik- und Informatik-Olympiaden, benötigt dafür aber deutlich mehr Rechenleistung als das Standardmodell. Dank Apache-2.0-Lizenz können Unternehmen die Modelle lokal betreiben, was volle Datenhoheit garantiert und die Abhängigkeit von Cloud-Abos beendet.

    DeepSeek Official – DeepSeek-V3.2 Release

    Hugging Face – DeepSeek-V3.2-Speciale Model Card

    THE DECODER – Deepseek V3.2 soll GPT-5 und Gemini 3 Pro Konkurrenz machen

    Stable Learn – DeepSeek-V3.2 Tech Report

    Bloomberg – DeepSeek Debuts New AI Models

    DeepSeek liefert mit der Version V3.2 und der Speciale-Variante ab heute eine Kampfansage an das Silicon Valley. Die neuen Modelle zielen darauf ab, die Leistung von GPT-5 zu erreichen und Googles Gemini 3 Pro im Bereich „Reasoning“ – also der logischen Schlussfolgerung – herauszufordern. Für deutsche Unternehmen besonders interessant: Das Modell erscheint unter der Apache-2.0-Lizenz als Open Weights, was den lokalen Betrieb ohne Datenabfluss ermöglicht. Architektur-Wechsel: Effizienz durch „Sparse Attention“ Die größte technische Neuerung betrifft die Art und Weise, wie das Modell Informationen verarbeitet. DeepSeek identifizierte die ineffiziente Verarbeitung langer Texte als eine Hauptschwäche bisheriger Open-Source-Modelle. Die Lösung nennen die Entwickler „DeepSeek Sparse Attention“ (DSA). Anstatt bei jeder Antwort den gesamten vorangegangenen Text erneut komplett zu prüfen, nutzt DSA ein Indexierungssystem. Das Modell bewertet vorab, welche Textbausteine für die aktuelle Antwort relevant sind, und ignoriert den Rest. Das senkt den Rechenaufwand massiv, ohne die Qualität der Antwort zu beeinträchtigen. Besonders bei langen Dokumentenanalysen macht sich dieser Effizienzsprung bemerkbar. Anzeige Strategiewechsel beim Training Auch beim Training geht der chinesische Anbieter neue Wege. Das Budget für das sogenannte Post-Training – die Phase, in der das Modell mittels menschlichem Feedback (Alignment) und Verstärkungslernen (Reinforcement Learning) feinjustiert wird – wurde drastisch erhöht. Flossen früher nur rund ein Prozent der Mittel in diesen Schritt, sind es bei V3.2 über zehn Prozent der gesamten Trainingskosten. Um diese Qualität zu erreichen, trainierte DeepSeek das System in über 4.400 synthetischen Aufgabenumgebungen und nutzte spezialisierte „Lehrer-Modelle“ für Mathematik und Programmierung, um hochwertige Trainingsdaten zu generieren. Benchmarks: Stark bei Agenten, knapp hinter Gemini In den harten Zahlen zeigt sich ein differenziertes Bild. Bei mathematischen Tests wie dem AIME 2025 erreicht V3.2 mit 93,1 Prozent fast das Niveau von GPT-5 (High), muss sich aber Googles Gemini 3 Pro (95,0 Prozent) geschlagen geben. Anders sieht es aus, wenn das Modell „arbeiten“ muss. In praktischen Szenarien, in denen die KI als autonomer Agent agiert, zieht DeepSeek vorbei. Im „SWE Multilingual“-Benchmark, der echte GitHub-Probleme simuliert, löst V3.2 beeindruckende 70,2 Prozent der Aufgaben. GPT-5 kommt hier nur auf 55,3 Prozent. Das macht das Modell besonders für Entwickler attraktiv, die KI-Agenten für komplexe Software-Tasks einsetzen wollen. + Quelle: Deepseek Speciale-Edition: Gold-Niveau mit hohem Verbrauch Parallel zum Allrounder erscheint „DeepSeek-V3.2-Speciale“. Diese Version operiert mit gelockerten Beschränkungen für die Länge der Gedankenketten (Chain-of-Thought). Das Resultat ist extreme Präzision: Bei der Internationalen Informatik-Olympiade 2025 erreichte das Modell Gold-Niveau. Dieser Scharfsinn hat jedoch seinen Preis. Das Speciale-Modell verbraucht für die Lösung komplexer Probleme im Schnitt 77.000 Token, während Konkurrent Gemini 3 Pro ähnliche Aufgaben mit 22.000 Token bewältigt. Wegen dieser Latenz und der höheren Kosten empfiehlt DeepSeek für den Standard-Einsatz das effizientere V3.2-Hauptmodell. Fazit: Echte Konkurrenz für US-Abos DeepSeek gibt offen zu, dass die Wissensbreite noch nicht ganz an die US-Vorbilder heranreicht. Dennoch ist V3.2, insbesondere durch die Apache-Lizenz und die starke Agenten-Performance, eine ernstzunehmende Alternative. Es erhöht den Druck auf OpenAI massiv, da Entwickler nun eine kostenlose, lokal betreibbare Option haben, die in der Praxis oft genauso gut funktioniert wie die teuren Bezahl-Dienste.

  • DeepSeekMath-V2 holt Gold bei der Mathe-Olympiade

    Ein Wal erklärt Schülern Mathematik

    Nano Banana

    Kurzfassung

    Quellen

    DeepSeek veröffentlicht mit DeepSeekMath-V2 ein Open-Source-Modell mit 685 Milliarden Parametern, das Gold-Niveau bei der Mathe-Olympiade erreicht. Das Modell übertrifft im Putnam-Wettbewerb 2024 mit 118 von 120 Punkten selbst die besten menschlichen Ergebnisse deutlich. Durch einen „Verifier-Meta-Verifier“-Ansatz prüft die KI ihre Lösungswege selbstständig, was Fehler und Halluzinationen minimiert. Der Code steht unter Apache 2.0 Lizenz bereit und greift damit direkt die proprietären Modelle von OpenAI und Google an.

    DeepSeek-Math-V2 Repository

    Hugging Face Model Card

    South China Morning Post: DeepSeek releases first open AI model

    MarkTechPost: DeepSeek AI Releases DeepSeekMath-V2

    OpenAI und Google bekommen ernsthafte Konkurrenz aus China – und diesmal ist der Code für alle verfügbar. DeepSeek hat mit DeepSeekMath-V2 ein KI-Modell veröffentlicht, das bei der Mathe-Olympiade Gold holt und selbst die besten menschlichen Ergebnisse beim Putnam-Wettbewerb übertrumpft. Rekordwerte bei den härtesten Mathe-Tests Das chinesische Start-up DeepSeek setzt mit seinem neuesten Release neue Maßstäbe in der mathematischen Logik. DeepSeekMath-V2 erreichte bei der Internationalen Mathematik-Olympiade (IMO) 2025 das sogenannte Gold-Level. Die KI löste fünf von sechs extrem komplexen Aufgaben korrekt. Das ist ein Leistungsniveau, das bisher fast ausschließlich proprietären Modellen wie denen von OpenAI (o1-Serie) oder Google DeepMind vorbehalten war. Noch beeindruckender sind die Ergebnisse beim Putnam-Wettbewerb 2025, einem der prestigeträchtigsten Mathe-Wettbewerbe für Studenten in Nordamerika. Das Modell erzielte hier 118 von 120 möglichen Punkten. Zum Vergleich: Das beste menschliche Ergebnis lag im selben Jahr bei 90 Punkten. Die KI rechnet also nicht nur solide, sie deklassiert menschliche Top-Talente in spezifischen Logik-Szenarien. Anzeige Selbstkontrolle statt sturem Rechnen Der technische Sprung gelingt DeepSeek nicht nur durch bloße Größe, obwohl das Modell mit 685 Milliarden Parametern (den variablen Werten, die das Wissen des neuronalen Netzes speichern) ein echtes Schwergewicht ist. Der Schlüssel liegt in der Architektur. Die Entwickler setzen auf einen sogenannten „Verifier-Meta-Verifier“-Ansatz. Vereinfacht gesagt: Das Modell spuckt nicht einfach eine Lösung aus. Es generiert einen Beweisweg und nutzt dann einen internen Prüfmechanismus, der die eigene Lösung kritisch hinterfragt, bevor sie ausgegeben wird. Diese iterative Selbstüberprüfung minimiert Halluzinationen bei logischen Schlussfolgerungen drastisch. Es ist dieser Schritt der „Reflexion“, der aktuellen Spitzenmodellen ihre Überlegenheit in MINT-Fächern verleiht. + Quelle: Deepseek Angriff auf das US-Monopol Der entscheidende Unterschied zu GPT-5 oder Gemini 3 liegt in der Verfügbarkeit. DeepSeek stellt DeepSeekMath-V2 als Open Source unter der Apache 2.0 Lizenz zur Verfügung. Entwickler und Unternehmen können das Modell und den Code – entsprechende Hardware vorausgesetzt – frei nutzen, modifizieren und kommerziell einsetzen. Dieser Schritt erhöht den Druck auf westliche Tech-Giganten massiv. Während Firmen im Silicon Valley ihre Gewichte unter Verschluss halten, liefert DeepSeek der Open-Source-Community ein Werkzeug auf State-of-the-Art-Niveau. Das könnte die Entwicklung spezialisierter Mathe- und Coding-Assistenten weltweit beschleunigen, ohne dass Nutzer dafür API-Gebühren an US-Konzerne zahlen müssen. Das Rennen um die intelligenteste KI wird durch offene Modelle nicht nur schneller, sondern auch deutlich unübersichtlicher für die etablierten Platzhirsche.

  • Deepseek erreicht laut eigenen Angaben Gold-Niveau bei der Mathe-Olympiade

    Das chinesische KI-Start-up Deepseek erzielt einen Erfolg, der bislang vor allem US-Giganten vorbehalten war: Gold-Niveau bei der Mathematik-Olympiade. Doch im Unterschied zu Google und OpenAI legt Deepseek seine Methoden offen. Mit diesem Schritt erhöht das eng mit der chinesischen Regierung verbundene Unternehmen den Wettbewerbsdruck auf die westliche KI-Industrie.

    Der Artikel Deepseek erreicht laut eigenen Angaben Gold-Niveau bei der Mathe-Olympiade erschien zuerst auf The Decoder.

  • Reuters: Deepseek dominiert bei chinesischen Militär-Ausschreibungen

    Chinas Militär nutzt die KI-Modelle heimischer Unternehmen wie Deepseek oder Alibaba für autonome Kampfsysteme, zeigt eine Analyse von Reuters.

    Der Artikel Reuters: Deepseek dominiert bei chinesischen Militär-Ausschreibungen erschien zuerst auf THE-DECODER.de.

  • Das KI-Gedächtnis ist da: DeepSeek löst Kontext-Problem

    Eine Bibliothek wo ein Roboter verzweifelt und ein Roboter-Wal die Arbeit erledigt

    Nano Banana

    Kurzfassung

    Quellen

    Das chinesische Unternehmen DeepSeek hat DeepSeek-OCR als Open-Source-Modell veröffentlicht. Die Technologie komprimiert Textbilder um das Zehnfache, während 97 Prozent der Informationen erhalten bleiben. Dies könnte das Problem begrenzter Kontextfenster bei Sprachmodellen lösen, indem es als externes KI-Gedächtnis dient. Das Modell übertrifft bestehende OCR-Lösungen in der Effizienz deutlich und steht Entwicklern frei zur Verfügung.

    DeepSeek AI – GitHub Repository DeepSeek AI – Hugging Face DeepSeek AI – Technical Paper THE DECODER (deutsch) THE DECODER (englisch)

    Das chinesische KI-Unternehmen DeepSeek hat ein neues Modell veröffentlicht. DeepSeek-OCR komprimiert Textdokumente in Bildform extrem effizient. Diese Technologie könnte das große Problem langer Kontexte bei Sprachmodellen lösen und das KI-Gedächtnis massiv erweitern. Zehnfache Kompression bei 97 Prozent Genauigkeit Das neue Modell von DeepSeek konzentriert sich auf die optische Zeichenerkennung (OCR). Es wandelt Bilder von Textdokumenten in ein hocheffizientes Format um. Die am Wochenende veröffentlichten technischen Details sorgen in der Fachwelt für Aufsehen. DeepSeek-OCR erreicht eine Kompressionsrate von bis zu zehn zu eins. Ein Dokument kann also auf ein Zehntel seiner ursprünglichen Bildgröße reduziert werden. Der entscheidende Punkt ist der geringe Informationsverlust. Laut dem Forschungspapier bleiben dabei 97 Prozent der relevanten Informationen erhalten. Diese Genauigkeit ist für die praktische Anwendung essenziell. Mit dieser Leistung stellt das Modell etablierte Konkurrenten klar in den Schatten. Spezialisierte Systeme wie GOT-OCR 2.0 oder MinerU 2.0 werden bei der reinen Effizienz deutlich übertroffen. + Quelle:Deepseek Ein externer Speicher für Sprachmodelle Die Innovation von DeepSeek zielt auf eine Kernschwäche aktueller KI ab: das begrenzte Kontextfenster. Große Sprachmodelle (LLMs) können nur eine bestimmte Menge an Text, oft Tokens genannt, gleichzeitig verarbeiten. Ist dieses Fenster voll, „vergessen“ sie ältere Informationen aus Gesprächen oder Dokumenten. Hier bietet DeepSeek-OCR einen cleveren Lösungsansatz. Statt rohen Text zu speichern, könnte eine KI ältere Teile eines Gesprächs oder frühere Seiten eines Dokuments als komprimiertes Bild ablegen. Diese Bilder dienen als externes Gedächtnis, das bei Bedarf abgerufen wird. Benötigt das Modell diese Informationen später wieder, ruft es das kompakte Bild ab und liest die Daten erneut ein. Das aktive Kontextfenster wird dadurch nicht permanent blockiert, was die Verarbeitungsfähigkeit von Langzeitinformationen revolutionieren könnte. Open Source für schnelle Verbreitung DeepSeek stellt das neue OCR-Modell als Open Source auf Plattformen wie GitHub und Hugging Face bereit. Dieser Schritt ist strategisch wichtig. Entwickler und Unternehmen müssen nicht auf teure, geschlossene Systeme zurückgreifen. Sie können die Technologie direkt implementieren und anpassen. Die Anwendungsmöglichkeiten sind vielfältig. Sie reichen von verbesserten Chatbots, die sich an wochenlange Gespräche erinnern, bis zur Verarbeitung riesiger digitaler Archive. Ganze Bibliotheken oder wissenschaftliche Datenbanken könnten so für KIs effizient durchsuchbar gemacht werden. Die Technologie senkt potenziell die hohen Betriebskosten für die Datenhaltung in KI-Systemen.

  • Deepseeks OCR-Modell könnte das KI-Gedächtnis deutlich ausbauen

    Illustration eines digitalisierten Wals mit dem Deepseek-Logo-Schriftzug.

    Das chinesische KI-Unternehmen Deepseek hat ein System entwickelt, das Textdokumente in Bildform als hochkomprimierten Input verarbeitet. Die Methode soll das Problem zu langer Kontexte in Sprachmodellen lösen.

    Der Artikel Deepseeks OCR-Modell könnte das KI-Gedächtnis deutlich ausbauen erschien zuerst auf THE-DECODER.de.

  • Deepseek-V3.2: Chinesisches KI-Startup senkt Preise um bis zu 75 Prozent

    Deepseek führt mit V3.2-Exp eine effizientere Attention-Architektur für lange Kontexte ein und senkt die API-Preise um mehr als 50 Prozent. Die Leistung soll weitgehend auf dem Niveau des Vorgängers bleiben.

    Der Artikel Deepseek-V3.2: Chinesisches KI-Startup senkt Preise um bis zu 75 Prozent erschien zuerst auf THE-DECODER.de.

  • Deepseek verbessert Hybridmodell v3.1 für agentische KI-Prozesse

    Deepseek stellt mit V3.1-Terminus ein Update seines KI-Modells vor, das konsistentere Ausgaben liefert und in Benchmarks mit verbesserter Tool-Nutzung punktet.

    Der Artikel Deepseek verbessert Hybridmodell v3.1 für agentische KI-Prozesse erschien zuerst auf THE-DECODER.de.

  • US-Studie: Chinas KI Deepseek liefert unsicheren Code bei politisch sensiblen Anfragen

    Deepseek gibt unsichereren Code aus, wenn Anfragen Bezug zu Falun Gong, Tibet oder Taiwan haben.

    Der Artikel US-Studie: Chinas KI Deepseek liefert unsicheren Code bei politisch sensiblen Anfragen erschien zuerst auf THE-DECODER.de.