ディープシーク、v3モデルの初のオープンソース版をリリース。

3.7K 00

DeepSeek-V3は強力なMoE（Mixture-of-Experts）言語モデルであり、総パラメータは6710億、各トークンに対して37億のパラメータが有効化されている。CogAgentは補助的な損失を伴わないロードバランシング戦略を実装し、モデルのパフォーマンスを大幅に向上させるためにマルチトークンの予測トレーニング目標を提案します。CogAgentは1,480万個の多様で高品質なトークンで事前に訓練され、その潜在能力を最大限に引き出すために教師ありの微調整と強化学習の段階を経ています。
DeepSeek-V3は、多くの標準的なベンチマーク、特に数学とコードのタスクで優れた性能を発揮しており、現在利用可能なオープンソースのベースモデルの中で最も強力で、トレーニングコストが低く、トレーニング中の安定性も高く評価されています。

昨日、DeepSeekの新しいモデルシリーズの最初のバージョンであるDeepSeek-V3がリリースされ、同時にオープンソース化されました。chat.deepseek.comにログインすることで、最新バージョンのV3モデルとチャットすることができます。APIサービスも同時に更新されているため、インターフェイスの設定を変更する必要はありません。現在のバージョンのDeepSeek-V3は、マルチモーダル入出力をサポートしていません。

パフォーマンス・アライメント海外リーダークローズド・ソース・モデル

DeepSeek-V3は、14.8Tで671Bのパラメータと37Bのアクティベーションを持つ国産のMoEモデルである。トークンの事前トレーニングが行われた。

論文へのリンク

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

DeepSeek-V3は、いくつかのレビューでQwen2.5-72BやLlama-3.1-405Bなどの他のオープンソースモデルを上回り、世界トップのクローズドソースモデルGPT-4oやClaude-3.5-Sonnetの性能に匹敵する。
DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力

博覧強記知識ベースのタスク（MMLU、MMLU-Pro、GPQA、SimpleQA）におけるDeepSeek-V3のレベルは、その前身であるDeepSeek-V2.5と比較して大幅に向上しており、現在の最高性能モデルであるClaude-3.5-Sonnet-1022に迫っています。
ロングテキスト平均して、DeepSeek-V3は、長文の測定において、DROP、FRAMES、LongBench v2で他のモデルを上回っています。
コーディング::DeepSeek-V3は、アルゴリズムのコードフォースにおいて、市場で入手可能なすべてのo1以外のモデルをはるかに凌駕している。工学クラスコードシナリオ（SWE-Bench Verified）において、Claude-3.5-Sonnet-1022に近似している。
数学DeepSeek-V3 は、American Mathematics Competition (AIME 2024, MATH) および National High School Mathematics League (CNMO 2024) において、オープンソースのクローズドソースモデルを大きく上回りました。
中国語能力DeepSeek-V3 は、教育分野の C-Eval と代名詞曖昧性解消の評価セットでは Qwen2.5-72B と同程度のパフォーマンスを示しますが、事実知識の C-SimpleQA ではより高度なパフォーマンスを示します。

DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力

最大3倍の生成速度

アルゴリズムとエンジニアリングの革新により、DeepSeek-V3は単語生成速度を20TPSから60TPSへと劇的に向上させ、V2.5モデルと比較して3倍の速さとスムーズさをユーザーにもたらします。 DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力

APIサービス価格調整

より強力で高速なDeepSeek-V3アップデートの稼動に伴い、モデルAPIサービスの価格も以下のように調整されます。入力トークン100万個あたり0.5ドル（キャッシュヒット）／2ドル（キャッシュミス）、出力トークン100万個あたり8ドルその目的は、すべての人に継続的により良いモデルサービスを提供できるようになることだ。 DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力同時に、最大45日間、新モデルを提供することを決定しました。現在から2025年2月8日まで、DeepSeek-V3のAPIサービスの価格は、お馴染みの価格に据え置かれます。入力トークン100万個につき0.1ドル（キャッシュヒット）／1ドル（キャッシュミス）、出力トークン100万個につき2ドル上記の割引料金は、既存ユーザーおよび期間中に新規登録されたユーザーの両方に適用されます。 DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力

オープンソースの重みとローカル展開

DeepSeek-V3はFP8トレーニングを使用し、ネイティブのFP8重みをオープンソース化しています。オープンソースコミュニティのサポートのおかげで、SGLangとLMDeployはV3モデルのネイティブFP8推論を初めてサポートし、TensorRT-LLMとMindIEはBF16推論を実装しています。さらに、FP8からBF16への変換スクリプトを提供し、コミュニティの便宜を図るとともに、適用シナリオを拡張しています。

モデルウェイトのダウンロードと、より詳しい現地展開情報は、以下を参照されたい：

https://huggingface.co/deepseek-ai/DeepSeek-V3-Base