AI Personal Learning
und praktische Anleitung

DeepSeek veröffentlicht die erste quelloffene Version seines v3-Modells, das jetzt die stärkste Codefähigkeit aufweist (in China)

DeepSeek-V3 ist ein leistungsstarkes Mixture-of-Experts (MoE) Sprachmodell mit 671 Milliarden Gesamtparametern und 3,7 Milliarden Parametern, die für jedes Token aktiviert werden. Das Modell verwendet eine innovative MLA-Architektur (Multi-head Latent Attention) zusammen mit der bewährten DeepSeekMoE-Architektur.CogAgent implementiert eine Lastausgleichsstrategie ohne zusätzliche Verluste und schlägt ein Trainingsziel für die Vorhersage mehrerer Token vor, um die Modellleistung erheblich zu verbessern. Es ist auf 14,8 Millionen verschiedenen und qualitativ hochwertigen Token vortrainiert und durchläuft überwachte Feinabstimmungs- und Verstärkungslernphasen, um sein volles Potenzial auszuschöpfen.

DeepSeek-V3 schneidet in vielen Standard-Benchmarks gut ab, insbesondere bei Mathematik- und Code-Aufgaben. Damit ist es das stärkste derzeit verfügbare Open-Source-Basismodell mit niedrigen Trainingskosten, und seine Stabilität während des Trainings ist hoch anerkannt.

Gestern wurde die erste Version der neuen Modellreihe von DeepSeek, DeepSeek-V3, veröffentlicht und gleichzeitig als Open Source zur Verfügung gestellt. Sie können mit der neuesten Version des V3-Modells chatten, indem Sie sich bei chat.deepseek.com anmelden. Der API-Dienst wurde gleichzeitig aktualisiert, so dass Sie die Konfiguration der Schnittstelle nicht ändern müssen. Die aktuelle Version von DeepSeek-V3 unterstützt keine multimodale Eingabe und Ausgabe.


 

Leistungsanpassung in Übersee Leader Closed Source Modelle

DeepSeek-V3 ist ein selbst entwickeltes MoE-Modell mit 671B Parametern und 37B Aktivierungen bei 14,8T Token Die Vorschulung wurde auf dem

Link zum Papier:

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

DeepSeek-V3 übertrifft in mehreren Tests andere Open-Source-Modelle wie Qwen2.5-72B und Llama-3.1-405B und erreicht die Leistung der weltweit besten Closed-Source-Modelle GPT-4o und Claude-3.5-Sonnet.
DeepSeek hat soeben die erste Version des Modells v3 als Open Source live veröffentlicht. -1

  • enzyklopädisches WissenDeepSeek-V3: Das Niveau von DeepSeek-V3 bei wissensbasierten Aufgaben (MMLU, MMLU-Pro, GPQA, SimpleQA) ist im Vergleich zu seinem Vorgänger, DeepSeek-V2.5, deutlich verbessert und liegt nahe am derzeit besten Modell, Claude-3.5-Sonnet-1022.
  • LangtextDeepSeek-V3 übertrifft im Durchschnitt die anderen Modelle bei DROP, FRAMES und LongBench v2 bei Langtextmessungen.
  • Kodierung::DeepSeek-V3 ist allen auf dem Markt erhältlichen Nicht-O1-Modellen in Bezug auf die algorithmische Code-Kraft weit voraus.; und nähert sich Claude-3.5-Sonnet-1022 im Szenario der Ingenieursklasse Code an (SWE-Bench Verified).
  • MatheDeepSeek-V3 hat bei der American Mathematics Competition (AIME 2024, MATH) und der National High School Mathematics League (CNMO 2024) alle quelloffenen Closed-Source-Modelle weit übertroffen.
  • Chinesische SprachkenntnisseDeepSeek-V3 zeigt ähnliche Leistungen wie Qwen2.5-72B in den Bewertungsbereichen C-Eval und Pronomen-Disambiguierung im Bereich Bildung, ist aber bei C-SimpleQA im Bereich Faktenwissen fortgeschrittener.

 

DeepSeek hat soeben die erste Version des Modells v3 als Open Source live veröffentlicht. -1

 

Bis zu 3x schnellere Generierung

Durch algorithmische und technische Innovationen erhöht DeepSeek-V3 die Geschwindigkeit der Worterzeugung von 20 TPS auf 60 TPS, was einer dreifachen Steigerung gegenüber dem Modell V2.5 entspricht und den Nutzern ein schnelleres und reibungsloseres Erlebnis bietet.

API Service Preisanpassung

Mit der Einführung des leistungsfähigeren und schnelleren DeepSeek-V3-Updates werden auch die Preise für unseren Modell-API-Dienst angepasst.0,5 pro Million Eingabe-Token (Cache-Treffer) / $2 (Cache-Fehlversuche), $8 pro Million Ausgabe-TokenZiel ist es, kontinuierlich bessere Modellierungsdienste für alle anbieten zu können. DeepSeek hat soeben die erste Version des Modells v3 als Open Source live veröffentlicht. -1 Gleichzeitig haben wir uns entschlossen, das neue Modell bis zu 45 Tage lang anzubieten: Von jetzt an bis zum 8. Februar 2025 bleibt der Preis für den API-Service von DeepSeek-V3 auf dem gewohnten Preis von0,1 pro Million Eingabe-Token (Cache-Treffer) / $1 (Cache-Fehlversuche), $2 pro Million Ausgabe-TokenDie oben genannten ermäßigten Preise gelten sowohl für bestehende Nutzer als auch für neue Nutzer, die sich während dieses Zeitraums anmelden. DeepSeek hat soeben die erste Version des Modells v3 als Open Source live veröffentlicht. -1

Open-Source-Gewichte und lokaler Einsatz

DeepSeek-V3 verwendet FP8-Training und Open-Source native FP8-Gewichte. Dank der Unterstützung der Open-Source-Gemeinschaft unterstützen SGLang und LMDeploy zum ersten Mal die native FP8-Inferenz des V3-Modells, während TensorRT-LLM und MindIE die BF16-Inferenz implementieren. Darüber hinaus stellen wir Konvertierungsskripte von FP8 zu BF16 zur Verfügung, um der Community die Anpassung und Erweiterung der Anwendungsszenarien zu erleichtern.

Der Download von Modellgewichten und weitere Informationen zum Einsatz vor Ort finden Sie unter:

https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " DeepSeek veröffentlicht die erste quelloffene Version seines v3-Modells, das jetzt die stärkste Codefähigkeit aufweist (in China)

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)