DeepSeek veröffentlicht die erste quelloffene Version seines v3-Modells, das jetzt die stärkste Codefähigkeit aufweist (in China)

AI-NachrichtenAktualisiert vor 8 Monaten AI-Austauschkreis

3.9K 00

DeepSeek-V3 ist ein leistungsstarkes Mixture-of-Experts (MoE) Sprachmodell mit 671 Milliarden Gesamtparametern und 3,7 Milliarden Parametern, die für jedes Token aktiviert werden. Das Modell verwendet eine innovative MLA-Architektur (Multi-head Latent Attention) zusammen mit der bewährten DeepSeekMoE-Architektur.CogAgent implementiert eine Lastausgleichsstrategie ohne zusätzliche Verluste und schlägt ein Trainingsziel für die Vorhersage mehrerer Token vor, um die Modellleistung erheblich zu verbessern. Es ist auf 14,8 Millionen verschiedenen und qualitativ hochwertigen Token vortrainiert und durchläuft überwachte Feinabstimmungs- und Verstärkungslernphasen, um sein volles Potenzial auszuschöpfen.
DeepSeek-V3 schneidet in vielen Standard-Benchmarks gut ab, insbesondere bei Mathematik- und Code-Aufgaben. Damit ist es das stärkste derzeit verfügbare Open-Source-Basismodell mit niedrigen Trainingskosten, und seine Stabilität während des Trainings ist hoch anerkannt.

Gestern wurde die erste Version der neuen Modellserie von DeepSeek, DeepSeek-V3, veröffentlicht und gleichzeitig als Open Source zur Verfügung gestellt. Besuchen Sie chat.deepseek.com, um mit der neuesten Version des V3-Modells zu sprechen. Der API-Dienst wurde aktualisiert, so dass die Konfiguration der Schnittstelle nicht geändert werden muss. Die aktuelle Version von DeepSeek-V3 unterstützt keine multimodale Eingabe und Ausgabe.

Leistungsanpassung in Übersee Leader Closed Source Modelle

DeepSeek-V3 ist ein selbst entwickeltes MoE-Modell mit 671B Parametern und 37B Aktivierungen bei 14,8T Token Die Vorschulung wurde auf dem

Link zum Papier:

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

DeepSeek-V3 übertrifft in mehreren Tests andere Open-Source-Modelle wie Qwen2.5-72B und Llama-3.1-405B und erreicht die Leistung der weltweit besten Closed-Source-Modelle GPT-4o und Claude-3.5-Sonnet.
DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力

enzyklopädisches WissenDeepSeek-V3: Das Niveau von DeepSeek-V3 bei wissensbasierten Aufgaben (MMLU, MMLU-Pro, GPQA, SimpleQA) ist im Vergleich zu seinem Vorgänger, DeepSeek-V2.5, deutlich verbessert und liegt nahe am derzeit besten Modell, Claude-3.5-Sonnet-1022.
LangtextDeepSeek-V3 übertrifft im Durchschnitt die anderen Modelle bei DROP, FRAMES und LongBench v2 bei Langtextmessungen.
Kodierung::DeepSeek-V3 ist allen auf dem Markt erhältlichen Nicht-O1-Modellen in Bezug auf die algorithmische Code-Kraft weit voraus.; und nähert sich Claude-3.5-Sonnet-1022 im Szenario der Ingenieursklasse Code an (SWE-Bench Verified).
MatheDeepSeek-V3 hat bei der American Mathematics Competition (AIME 2024, MATH) und der National High School Mathematics League (CNMO 2024) alle quelloffenen Closed-Source-Modelle weit übertroffen.
Chinesische SprachkenntnisseDeepSeek-V3 zeigt ähnliche Leistungen wie Qwen2.5-72B in den Bewertungsbereichen C-Eval und Pronomen-Disambiguierung im Bereich Bildung, ist aber bei C-SimpleQA im Bereich Faktenwissen fortgeschrittener.

DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力

Bis zu 3x schnellere Generierung

Durch algorithmische und technische Innovationen erhöht DeepSeek-V3 die Geschwindigkeit der Worterzeugung drastisch von 20 TPS auf 60 TPS, eine dreifache Steigerung im Vergleich zum Modell V2.5, was den Benutzern ein schnelleres und reibungsloseres Erlebnis bietet. DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力

API Service Preisanpassung

Mit der Einführung des leistungsfähigeren und schnelleren DeepSeek-V3-Updates werden auch die Preise für unseren Modell-API-Dienst angepasst.0,5 pro Million Eingabe-Token (Cache-Treffer) / $2 (Cache-Fehlversuche), $8 pro Million Ausgabe-TokenZiel ist es, kontinuierlich bessere Modellierungsdienste für alle anbieten zu können. DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力 Gleichzeitig haben wir uns entschlossen, dem neuen Modell eine 45-tägige Preispause zu gewähren: Von jetzt an bis zum 8. Februar 2025 bleibt der Preis für den API-Service von DeepSeek-V3 der bekannte0,1 pro Million Eingabe-Token (Cache-Treffer) / $1 (Cache-Fehlversuche), $2 pro Million Ausgabe-TokenDie oben genannten ermäßigten Preise gelten sowohl für bestehende Nutzer als auch für neue Nutzer, die sich während dieses Zeitraums anmelden. DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力

Open-Source-Gewichte und lokaler Einsatz

DeepSeek-V3 verwendet FP8-Training und Open-Source native FP8-Gewichte. Dank der Unterstützung der Open-Source-Gemeinschaft unterstützen SGLang und LMDeploy zum ersten Mal die native FP8-Inferenz des V3-Modells, während TensorRT-LLM und MindIE die BF16-Inferenz implementieren. Darüber hinaus stellen wir Konvertierungsskripte von FP8 zu BF16 zur Verfügung, um der Community die Anpassung und Erweiterung der Anwendungsszenarien zu erleichtern.

Der Download von Modellgewichten und weitere Informationen zum Einsatz vor Ort finden Sie unter:

https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

AI-Nachrichten

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Conch Video "Lens Control"-Modell: AI Video-Erstellung "Regisseur" Ära angekommen ist?

AI-Nachrichten

vor 5 Monaten

01.1K

EpocCam：将苹果手机变成高清网络摄像头，支持Mac设备，轻松实现视频会议和直播

EpocCam: Verwandelt Ihr Apple-Handy in eine HD-Webcam, unterstützt Mac-Geräte, einfache Videokonferenzen und Live-Streaming

AI-Nachrichten

vor 8 Monaten

01.7K

DeepSeek R1 vs o3-mini：谁才是2025年成本效益最高的推理模型？

DeepSeek R1 vs. o3-mini: Wer ist das kostengünstigste Inferenzmodell für 2025?

AI-Nachrichten

vor 6 Monaten

01.9K

Die KI-Suchmaschine Perplexity wird demnächst einen neuen Browser namens Comet auf den Markt bringen.

AI-Nachrichten

vor 5 Monaten

01.3K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

DeepSeek veröffentlicht die erste quelloffene Version seines v3-Modells, das jetzt die stärkste Codefähigkeit aufweist (in China)

Leistungsanpassung in Übersee Leader Closed Source Modelle

Bis zu 3x schnellere Generierung

API Service Preisanpassung

Open-Source-Gewichte und lokaler Einsatz

Die Videoerstellungsplattform "Searchlight" des Dharma-Instituts Vollständige Überprüfung

Perplexity steigt in die KI-Suche für Unternehmen ein! Übernahme RAG-Startup Carbon

Ähnliche Artikel

Conch Video "Lens Control"-Modell: AI Video-Erstellung "Regisseur" Ära angekommen ist?

EpocCam: Verwandelt Ihr Apple-Handy in eine HD-Webcam, unterstützt Mac-Geräte, einfache Videokonferenzen und Live-Streaming

DeepSeek R1 vs. o3-mini: Wer ist das kostengünstigste Inferenzmodell für 2025?

Die KI-Suchmaschine Perplexity wird demnächst einen neuen Browser namens Comet auf den Markt bringen.

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

DeepSeek veröffentlicht die erste quelloffene Version seines v3-Modells, das jetzt die stärkste Codefähigkeit aufweist (in China)

Leistungsanpassung in Übersee Leader Closed Source Modelle

Bis zu 3x schnellere Generierung

API Service Preisanpassung

Open-Source-Gewichte und lokaler Einsatz

Die Videoerstellungsplattform "Searchlight" des Dharma-Instituts Vollständige Überprüfung

Perplexity steigt in die KI-Suche für Unternehmen ein! Übernahme RAG-Startup Carbon

Ähnliche Artikel

Conch Video "Lens Control"-Modell: AI Video-Erstellung "Regisseur" Ära angekommen ist?

EpocCam: Verwandelt Ihr Apple-Handy in eine HD-Webcam, unterstützt Mac-Geräte, einfache Videokonferenzen und Live-Streaming

DeepSeek R1 vs. o3-mini: Wer ist das kostengünstigste Inferenzmodell für 2025?

Die KI-Suchmaschine Perplexity wird demnächst einen neuen Browser namens Comet auf den Markt bringen.

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel