DeepSeek V3.1 - DeepSeek推出的最新开源AI模型

47.7K 00

DeepSeek V3.1是什么

DeepSeek V3.1是DeepSeek推出的新一代AI模型，在前代V3模型的基础上进行重要升级。DeepSeek V3.1引入混合推理架构，让模型在思考模式和非思考模式之间灵活切换，显著提高思考效率。DeepSeek V3.1将上下文窗口从64K扩展到128K，增强处理长文本的能力。模型采用混合专家（MoE）架构，参数量与V3保持一致，在编程和搜索智能体任务中的表现更为出色。DeepSeek V3.1现已官网网页端、App、小程序以及API开放平台全面更新，为用户提供更强大的智能交互体验。

DeepSeek V3.1的功能特色

文本生成：在自然语言处理方面表现出色，能创作生动有趣的创意文本，如故事、诗歌等，回答问题时语言风格更加活泼，信息更丰富。
代码生成：具备强大的编程能力，能生成复杂的代码，帮助开发者快速构建代码框架，提高编程效率。
数学与逻辑：在基础数学问题上能给出准确答案，物理模拟更加贴近实际，支持多种参数调整。
知识解答：对小众历史问题等的回答更加准确，信息量更大，在科技和科学领域能提供深入的分析和解答。
多模式推理：支持思考模式和非思考模式，用户可以通过“深度思考”按钮实现自由切换，以适应不同的使用场景。
增强的智能体能力：基于后训练优化，模型在工具使用和智能体任务中的表现显著提升，特别是在编程和搜索智能体方面。
API升级：DeepSeek API升级支持128K上下文窗口和strict模式的Function Calling，确保输出满足预定义的schema。
Anthropic API格式支持：新增对Anthropic API格式的支持，方便用户将DeepSeek-V3.1集成到Claude Code框架中。

DeepSeek V3.1的核心优势

上下文窗口扩展：上下文窗口从64k扩展至128k，显著提升长文本处理能力，让模型在长篇内容创作和复杂文本理解中表现出色。
混合专家（MoE）架构：基于MoE架构，通过多个专家模型协同工作，提高效率和灵活性，降低计算成本。
自然语言处理能力：生成高质量创意文本，回答问题时语气活泼自然，广泛应用在内容创作。
编程能力：能生成复杂且完成度高的代码，帮助开发者快速搭建框架，提升编程效率。
开源与社区贡献：Base版本开源至Hugging Face，促进社区参与和创新，推动技术发展。
优化的Agent能力：通过后训练优化，新模型在工具使用和智能体任务中的表现有显著提升。
API升级：支持更长的上下文窗口和更严格的功能调用模式，确保输出满足预定义的schema。
参数精度调整：使用UE8M0 FP8 Scale的参数精度，对分词器及chat template进行调整，提高模型性能。