DeepSeek-V4 - 深度求索发布的新一代大语言模型系列
DeepSeek-V4是什么
DeepSeek-V4 是深度求索发布的新一代大语言模型系列预览版,已同步开源并开放 API。系列采用 MoE 架构,包含 V4-Pro(1.6T 参数 / 49B 激活)与 V4-Flash(284B 参数 / 13B 激活)双版本,均支持百万 Token 超长上下文,依托 DSA 稀疏注意力机制大幅降低长文本计算成本。V4-Pro 在 Agent 编码、数学推理与世界知识等维度表现优异,性能比肩 Claude Opus 4.6 与 GPT-5.4;V4-Flash 则以更低成本提供接近的推理能力。模型同时支持思考 / 非思考双模式,并针对 Claude Code 等主流 Agent 框架深度优化。

DeepSeek-V4的功能特色
- 双版本 MoE 架构:提供 V4-Pro(1.6T 总参数 / 49B 激活参数)与 V4-Flash(284B 总参数 / 13B 激活参数)两个版本,单次前向传播仅激活少量专家网络,兼顾顶级性能与推理成本可控。
- 百万 Token 超长上下文:全系列标配 1M(100 万 Token) 上下文窗口,可一次性吞入整本书籍、大型代码库或长篇技术报告,且为 DeepSeek 所有官方服务的标配能力。
- DSA 稀疏注意力机制:采用 DeepSeek Sparse Attention 结合 token 维度压缩技术,实现全球领先的长上下文处理效率,较传统方法大幅降低计算量与 KV 缓存显存占用。
- 思考 / 非思考双模式:两个版本均支持两种推理模式,思考模式支持
reasoning_effort参数调节强度(high/max),复杂 Agent 场景建议开启max以获得最佳效果。 - Agent 能力深度优化:针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 框架进行专项适配与优化,在代码生成、文档处理、工具调用等任务上表现全面提升。
- 顶尖推理与编码性能:在数学、STEM、竞赛型代码(Apex Shortlist 90.2%、Codeforces 3206 分)及 Agentic Coding 评测(SWE Verified 80.6%、Terminal Bench 2.0 67.9%)中达到当前开源模型最佳水平,比肩 Claude Opus 4.6 与 GPT-5.4。
- 丰富的世界知识储备:在 SimpleQA、Chinese-SimpleQA 等知识测评中大幅领先其他开源模型,仅稍逊于顶尖闭源模型 Gemini-3.1-Pro。
- 全生态开源 + API 兼容:模型权重已在 Hugging Face 与 ModelScope 完全开源,API 服务兼容 OpenAI ChatCompletions 与 Anthropic 接口格式,base_url 不变即可无缝迁移。
- 超长文本精准检索:支持 MRCR 1M、CorpusQA 1M 等百万级长上下文检索与问答任务,检索精度与问答准确率较上一代大幅提升。
- 多语言代码能力:在 SWE Multilingual 等评测中展现出色的跨语言代码理解与生成能力,满足全球化开发团队的协作需求。
DeepSeek-V4的核心优势
- 百万 Token 超长上下文:1M 上下文长度成为官方服务标配,依托 DSA 稀疏注意力机制,计算量与显存占用随序列长度增长大幅降低,长文本处理成本显著优于传统方案。
- MoE 架构极致高效:V4-Pro 拥有 1.6T 总参数、49B 激活参数,V4-Flash 为 284B 总参数、13B 激活参数,单次推理仅激活少量专家网络,兼顾顶级性能与可控算力消耗。
- 开源 + API 全面开放:模型权重已在 Hugging Face 与 ModelScope 开源,同时提供官方 API 服务,开发者可本地部署或云端调用,灵活性极高。
- Agent 能力大幅跃升:SWE Verified 达 80.6%,Terminal Bench 2.0 达 67.9%,公司内部评测显示使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。
- 推理与知识性能顶尖:在数学、STEM、竞赛型代码(Apex Shortlist 90.2%、Codeforces 3206 分)及世界知识测评中,成绩比肩 Claude Opus 4.6 与 GPT-5.4,领先其他开源模型。
- 双版本覆盖全场景:V4-Pro 主打极致性能,适合复杂 Agent 与深度推理;V4-Flash 以更低价格提供接近的推理能力,满足高频、轻量任务需求。
- 思考 / 非思考双模式:均支持两种推理模式,思考模式可设置 high/max 强度,复杂 Agent 场景建议开启 max 强度以获得最佳效果。
- 主流 Agent 生态深度适配:针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 框架专项优化,代码生成与文档处理任务表现全面提升。
DeepSeek-V4官网是什么
- HuggingFace Model Library:https://huggingface.co/collections/deepseek-ai/deepseek-v4
- Technical Papers:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
DeepSeek-V4的操作步骤
- 网页端 / App 快速体验:登录官网 chat.deepseek.com 或打开 DeepSeek 官方 App,在对话界面选择「专家模式」即可使用 V4-Pro,选择「快速模式」即可使用 V4-Flash,直接开启 1M 上下文对话。
- API 接入(模型名切换):保持原有 base_url 不变,将 API 请求中的 model 参数修改为
deepseek-v4-promaybedeepseek-v4-flash,即可调用对应版本;接口兼容 OpenAI ChatCompletions 格式与 Anthropic 格式。 - 开启思考模式(复杂任务):在 API 调用中设置
reasoning_effortparameters arehighmaybemax,建议 Agent 编码、深度推理等复杂场景直接使用max强度以获得最佳效果;网页端/App 可在设置中切换思考模式。 - 旧模型迁移:现有
deepseek-chattogether withdeepseek-reasoner两个旧模型名将于 2026 年 7 月 24 日停用,当前已分别自动映射至 V4-Flash 的非思考模式与思考模式,建议尽快更新代码中的 model 名称。
DeepSeek-V4的适用人群
- 软件开发工程师与 Agent 开发者:V4-Pro 在 SWE Verified(80.6%)与 Terminal Bench 2.0(67.9%)表现优异,且深度适配 Claude Code、OpenClaw 等主流 Agent 框架,适合需要高强度代码生成、自动化编程与工具调用的开发者。
- Researchers and Data Analysts:数学与 STEM 推理能力顶尖(Apex Shortlist 90.2%、HMMT 95.2%),支持百万 Token 上下文,适合处理长论文、实验数据与复杂数学建模。
- 企业技术团队与架构师:模型完全开源(Hugging Face / ModelScope),支持本地部署与私有化推理;MoE 架构激活参数低,便于在企业内部 GPU 集群上高效运行。
- 内容创作者与知识工作者:世界知识储备丰富(Chinese-SimpleQA 84.4%),1M 超长上下文可一次性处理整本书籍、长篇报告或大量素材,适合深度写作、资料整理与知识问答。
- Students and educators:解题与逻辑推理能力强,Flash 版本成本极低(输入 1 元/百万 Token),适合作为日常学习辅导、竞赛备赛与教学演示的 AI 助手。
- 初创公司与独立开发者:API 定价极具竞争力(Flash 版输入低至 0.2 元缓存命中),开源权重可免费本地部署,大幅降低 AI 应用的原型开发与运营成本。
DeepSeek-V4的常见问题
Q:DeepSeek-V4 有几个版本,区别是什么?
A:V4 系列分为两个版本。V4-Pro(1.6T 参数 / 49B 激活)主打极致性能,Agent 编码与推理能力比肩 Claude Opus 4.6 与 GPT-5.4,适合复杂任务;V4-Flash(284B 参数 / 13B 激活)以更低成本提供接近的推理能力,响应更快、价格更低,适合高频轻量任务。两者均支持 1M 上下文与思考/非思考双模式。
Q:上下文长度最长支持多少?
A:DeepSeek-V4 全系列标配 1M(一百万 Token) 超长上下文,且通过 DSA 稀疏注意力机制,长文本下的计算量与显存占用较传统方案大幅降低。
Q:如何通过 API 调用 V4?旧模型名还能用吗?
A:base_url 保持不变,将 model 参数改为
deepseek-v4-pro maybe deepseek-v4-flash 即可。旧有的 deepseek-chat together with deepseek-reasoner will be published in 2026 年 7 月 24 日 停用,当前阶段它们分别自动映射至 V4-Flash 的非思考模式与思考模式,建议尽快迁移。Q:API 定价是多少?
A:V4-Pro:缓存命中输入 1 元/百万 Token,缓存未命中输入 12 元/百万 Token,输出 24 元/百万 Token;V4-Flash:缓存命中输入 0.2 元/百万 Token,缓存未命中输入 1 元/百万 Token,输出 2 元/百万 Token。两者上下文长度均为 1M。
Q:Pro 版本目前有什么限制?
A:受限于高端昇腾算力,V4-Pro 当前服务吞吐十分有限,价格相对较高。预计下半年昇腾 950 超节点批量上市后,Pro 的 API 价格会大幅下调。
Q:思考模式如何开启?
A:V4-Pro 与 V4-Flash 均支持思考模式。在 API 调用中设置
reasoning_effort parameters are high maybe max,复杂 Agent 场景建议设置为 max。网页端与 App 可在对话设置中手动切换思考模式。Q:V4 支持哪些 Agent 工具或框架?
A:官方针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行了专项适配与优化,在代码任务、文档生成等场景表现均有提升。
© Copyright notes
Article copyright AI Sharing Circle All, please do not reproduce without permission.
Related posts
No comments...




