DeepSeek-V4 - 深度求索发布的新一代大语言模型系列

Latest AI Resources4wks agorelease AI Sharing Circle

12.4K 00

DeepSeek-V4是什么

DeepSeek-V4 是深度求索发布的新一代大语言模型系列预览版，已同步开源并开放 API。系列采用 MoE 架构，包含 V4-Pro（1.6T 参数 / 49B 激活）与 V4-Flash（284B 参数 / 13B 激活）双版本，均支持百万 Token 超长上下文，依托 DSA 稀疏注意力机制大幅降低长文本计算成本。V4-Pro 在 Agent 编码、数学推理与世界知识等维度表现优异，性能比肩 Claude Opus 4.6 与 GPT-5.4；V4-Flash 则以更低成本提供接近的推理能力。模型同时支持思考 / 非思考双模式，并针对 Claude Code 等主流 Agent 框架深度优化。

DeepSeek-V4的功能特色

双版本 MoE 架构：提供 V4-Pro（1.6T 总参数 / 49B 激活参数）与 V4-Flash（284B 总参数 / 13B 激活参数）两个版本，单次前向传播仅激活少量专家网络，兼顾顶级性能与推理成本可控。
百万 Token 超长上下文：全系列标配 1M（100 万 Token） 上下文窗口，可一次性吞入整本书籍、大型代码库或长篇技术报告，且为 DeepSeek 所有官方服务的标配能力。
DSA 稀疏注意力机制：采用 DeepSeek Sparse Attention 结合 token 维度压缩技术，实现全球领先的长上下文处理效率，较传统方法大幅降低计算量与 KV 缓存显存占用。
思考 / 非思考双模式：两个版本均支持两种推理模式，思考模式支持 reasoning_effort 参数调节强度（high / max），复杂 Agent 场景建议开启 max 以获得最佳效果。
Agent 能力深度优化：针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 框架进行专项适配与优化，在代码生成、文档处理、工具调用等任务上表现全面提升。
顶尖推理与编码性能：在数学、STEM、竞赛型代码（Apex Shortlist 90.2%、Codeforces 3206 分）及 Agentic Coding 评测（SWE Verified 80.6%、Terminal Bench 2.0 67.9%）中达到当前开源模型最佳水平，比肩 Claude Opus 4.6 与 GPT-5.4。
丰富的世界知识储备：在 SimpleQA、Chinese-SimpleQA 等知识测评中大幅领先其他开源模型，仅稍逊于顶尖闭源模型 Gemini-3.1-Pro。
全生态开源 + API 兼容：模型权重已在 Hugging Face 与 ModelScope 完全开源，API 服务兼容 OpenAI ChatCompletions 与 Anthropic 接口格式，base_url 不变即可无缝迁移。
超长文本精准检索：支持 MRCR 1M、CorpusQA 1M 等百万级长上下文检索与问答任务，检索精度与问答准确率较上一代大幅提升。
多语言代码能力：在 SWE Multilingual 等评测中展现出色的跨语言代码理解与生成能力，满足全球化开发团队的协作需求。

DeepSeek-V4的核心优势

百万 Token 超长上下文：1M 上下文长度成为官方服务标配，依托 DSA 稀疏注意力机制，计算量与显存占用随序列长度增长大幅降低，长文本处理成本显著优于传统方案。
MoE 架构极致高效：V4-Pro 拥有 1.6T 总参数、49B 激活参数，V4-Flash 为 284B 总参数、13B 激活参数，单次推理仅激活少量专家网络，兼顾顶级性能与可控算力消耗。
开源 + API 全面开放：模型权重已在 Hugging Face 与 ModelScope 开源，同时提供官方 API 服务，开发者可本地部署或云端调用，灵活性极高。
Agent 能力大幅跃升：SWE Verified 达 80.6%，Terminal Bench 2.0 达 67.9%，公司内部评测显示使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式。
推理与知识性能顶尖：在数学、STEM、竞赛型代码（Apex Shortlist 90.2%、Codeforces 3206 分）及世界知识测评中，成绩比肩 Claude Opus 4.6 与 GPT-5.4，领先其他开源模型。
双版本覆盖全场景：V4-Pro 主打极致性能，适合复杂 Agent 与深度推理；V4-Flash 以更低价格提供接近的推理能力，满足高频、轻量任务需求。
思考 / 非思考双模式：均支持两种推理模式，思考模式可设置 high/max 强度，复杂 Agent 场景建议开启 max 强度以获得最佳效果。
主流 Agent 生态深度适配：针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 框架专项优化，代码生成与文档处理任务表现全面提升。

DeepSeek-V4官网是什么

HuggingFace Model Library：https://huggingface.co/collections/deepseek-ai/deepseek-v4
Technical Papers：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

DeepSeek-V4的操作步骤

网页端 / App 快速体验：登录官网 chat.deepseek.com 或打开 DeepSeek 官方 App，在对话界面选择「专家模式」即可使用 V4-Pro，选择「快速模式」即可使用 V4-Flash，直接开启 1M 上下文对话。
API 接入（模型名切换）：保持原有 base_url 不变，将 API 请求中的 model 参数修改为 deepseek-v4-pro maybe deepseek-v4-flash，即可调用对应版本；接口兼容 OpenAI ChatCompletions 格式与 Anthropic 格式。
开启思考模式（复杂任务）：在 API 调用中设置 reasoning_effort parameters are high maybe max，建议 Agent 编码、深度推理等复杂场景直接使用 max 强度以获得最佳效果；网页端/App 可在设置中切换思考模式。
旧模型迁移：现有 deepseek-chat together with deepseek-reasoner 两个旧模型名将于 2026 年 7 月 24 日停用，当前已分别自动映射至 V4-Flash 的非思考模式与思考模式，建议尽快更新代码中的 model 名称。

DeepSeek-V4的适用人群

软件开发工程师与 Agent 开发者：V4-Pro 在 SWE Verified（80.6%）与 Terminal Bench 2.0（67.9%）表现优异，且深度适配 Claude Code、OpenClaw 等主流 Agent 框架，适合需要高强度代码生成、自动化编程与工具调用的开发者。
Researchers and Data Analysts：数学与 STEM 推理能力顶尖（Apex Shortlist 90.2%、HMMT 95.2%），支持百万 Token 上下文，适合处理长论文、实验数据与复杂数学建模。
企业技术团队与架构师：模型完全开源（Hugging Face / ModelScope），支持本地部署与私有化推理；MoE 架构激活参数低，便于在企业内部 GPU 集群上高效运行。
内容创作者与知识工作者：世界知识储备丰富（Chinese-SimpleQA 84.4%），1M 超长上下文可一次性处理整本书籍、长篇报告或大量素材，适合深度写作、资料整理与知识问答。
Students and educators：解题与逻辑推理能力强，Flash 版本成本极低（输入 1 元/百万 Token），适合作为日常学习辅导、竞赛备赛与教学演示的 AI 助手。
初创公司与独立开发者：API 定价极具竞争力（Flash 版输入低至 0.2 元缓存命中），开源权重可免费本地部署，大幅降低 AI 应用的原型开发与运营成本。

DeepSeek-V4的常见问题

Q：DeepSeek-V4 有几个版本，区别是什么？

A：V4 系列分为两个版本。V4-Pro（1.6T 参数 / 49B 激活）主打极致性能，Agent 编码与推理能力比肩 Claude Opus 4.6 与 GPT-5.4，适合复杂任务；V4-Flash（284B 参数 / 13B 激活）以更低成本提供接近的推理能力，响应更快、价格更低，适合高频轻量任务。两者均支持 1M 上下文与思考/非思考双模式。

Q：上下文长度最长支持多少？

A：DeepSeek-V4 全系列标配 1M（一百万 Token） 超长上下文，且通过 DSA 稀疏注意力机制，长文本下的计算量与显存占用较传统方案大幅降低。

Q：如何通过 API 调用 V4？旧模型名还能用吗？

A：base_url 保持不变，将 model 参数改为 deepseek-v4-pro maybe deepseek-v4-flash 即可。旧有的 deepseek-chat together with deepseek-reasoner will be published in 2026 年 7 月 24 日 停用，当前阶段它们分别自动映射至 V4-Flash 的非思考模式与思考模式，建议尽快迁移。

Q：API 定价是多少？

A：V4-Pro：缓存命中输入 1 元/百万 Token，缓存未命中输入 12 元/百万 Token，输出 24 元/百万 Token；V4-Flash：缓存命中输入 0.2 元/百万 Token，缓存未命中输入 1 元/百万 Token，输出 2 元/百万 Token。两者上下文长度均为 1M。

Q：Pro 版本目前有什么限制？

A：受限于高端昇腾算力，V4-Pro 当前服务吞吐十分有限，价格相对较高。预计下半年昇腾 950 超节点批量上市后，Pro 的 API 价格会大幅下调。

Q：思考模式如何开启？

A：V4-Pro 与 V4-Flash 均支持思考模式。在 API 调用中设置 reasoning_effort parameters are high maybe max，复杂 Agent 场景建议设置为 max。网页端与 App 可在对话设置中手动切换思考模式。

Q：V4 支持哪些 Agent 工具或框架？

A：官方针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行了专项适配与优化，在代码任务、文档生成等场景表现均有提升。