DeepSeek-V3.2-Exp - ディープシークの最新のオープンソース実験的AIモデル

38.2K 00

DeepSeek-V3.2-Expとは何ですか？

DeepSeek-V3.2-Expは、DeepSeek Sparse Attention（DSA）メカニズムを導入することで、長文処理の効率を大幅に向上させたDeepSeekのオープンソース実験用AIモデルです。このモデルはDeepSeek-V3.1-TerminusDeepSeek-V3.2-Expは、継続的な学習を行い、アーキテクチャにDSAのみを導入し、きめ細かなスパースアテンションメカニズムを実装し、Lightning Indexerの助けを借りてキー情報を効率的に選択することで、長文の学習と推論の効率を大幅に向上させている。Terminusは基本的に同等であり、異なるドメインにおいてその能力を発揮する。

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Expの特徴

疎な注意メカニズムDeepSeek-V3.2-Expは、DeepSeek Sparse Attention (DSA)を導入し、モデル出力を維持しながら、きめ細かいスパースアテンションメカニズムにより、長文処理の効率を大幅に改善します。
長文処理能力このモデルは、最大160Kの長いシーケンス・コンテキスト長をサポートしており、長文文書分析や長文テキスト生成などの長文テキスト処理シナリオに特に適している。
APIコスト削減APIの価格は劇的に低下し、開発者がDeepSeek APIを呼び出すコストが50%以上削減されたため、より多くの開発者が低コストでこのモデルにアクセスして使用できるようになりました。
マルチプラットフォーム対応公式アプリウェブベースアプレットがDeepSeek-V3.2-Expに更新され、追加設定なしで複数のプラットフォームでモデルを直接使用できるようになりました。
オープンソースシェアリングDeepSeek-V3.2-Expは、Hugging FaceおよびModelScopeプラットフォーム上でオープンソース化されており、研究者や開発者による研究や応用を容易にするために、詳細な実装の詳細とモデルの重みを提供しています。
パフォーマンス最適化DeepSeek-V3.2-Expは、複数の公開レビューセットでDeepSeek-V3.1-Terminusと基本的に同じ性能を発揮する一方、長文処理における推論コストを大幅に削減しました。
柔軟な展開ユーザーは、Hugging Faceプラットフォームからモデルの重みをダウンロードして、ローカルで実行することができます。

DeepSeek-V3.2-Expの主な利点

効率性の向上DeepSeek-V3.2-Expは、スパースアテンションメカニズムにより、長文処理の効率を大幅に改善し、推論コストを削減します。
安定したパフォーマンスモデルの性能は、いくつかの公開レビュー・セットでDeepSeek-V3.1-Terminusと基本的に同等であり、高いレベルを維持しています。
コスト削減APIの価格が大幅に下がったことで、開発者の利用コストが下がり、より多くのユーザーが低コストでこのモデルにアクセスし、利用できるようになった。
てこのモデルは、数学的推論、コード生成、検索エージェントなど、さまざまな領域のタスクに対して優れた適応性を示し、その応用範囲の広さを示している。

DeepSeek-V3.2-ExpとV3.1-Terminusの性能比較

推論効率の向上DeepSeek-V3.2-Exp は、V3.1-Terminus と比較して、長文推論において約 2～3 倍と大幅に高速化しました。128K の長いコンテキストを処理する場合、推論コストは、特に復号フェーズで大幅に削減されます。
パフォーマンスは基本的に同じDeepSeek-V3.2-Exp は、すべてのドメインの公開レビューセットで、V3.1-Terminus とほぼ同じパフォーマンスを示しました。例えば、MMLU-Proでは、どちらも85.0を記録しています。
メモリ使用量の削減DeepSeek-V3.2-Exp は、V3.1-Terminus と比較してメモリ使用量が約 30-40% 減少しました。
トレーニング効率の向上DeepSeek-V3.2-Expの学習効率は、V3.1-Terminusと比較して約50%向上しています。
課題別パフォーマンスの違いプログラミング課題では、DeepSeek-V3.2-Exp は Codeforces で 2121 を獲得し、V3.1-Terminus の 2046 をわずかに上回った。しかし、「Humanity's Last Exam」などの文系試験では、V3.2-Exp は 19.8 を獲得し、V3.1-Terminus の 21.7 を下回った。しかし、「人類最後の試験」のような文系の試験では、V3.2-Exp のスコアは 19.8 で、V3.1-Terminus の 21.7 よりも低い。

DeepSeek-V3.2-Expの公式ウェブサイトは？

HuggingFaceモデルライブラリ:: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
マジック・マッチング・コミュニティ:: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
技術論文:: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek-V3.2-Expは誰のためのものですか？

開発者DeepSeek-V3.2-ExpのAPI価格の引き下げは、コストに敏感な開発者にとって理想的な選択肢であり、特に長いテキストを処理する必要があったり、推論効率に対する要求が高いアプリケーション開発に適しています。
コンテンツクリエーターライターやコピーライターなど、長文のコンテンツを効率的に作成する必要があるクリエイターに、クリエイティブなインスピレーションを素早く提供し、執筆を支援します。
教育者教育分野では、教育内容の生成、学習教材の構成、インテリジェントな個別指導を支援し、教育者の作業効率を向上させるのに役立ちます。
ビジネスユーザーインテリジェントな顧客サービス、文書処理、データ分析、企業内のその他のシナリオに適しており、企業の運用効率とインテリジェンスを向上させます。
愛用者このモデルの強力な機能は、公式アプリ、ウェブサイト、アプレットを通じて一般ユーザーが簡単に体験することができ、テキスト生成や情報検索といった日常的なニーズを満たすことができる。