一、简介
Deepseek R1 是一款支持复杂推理、多模态处理、技术文档生成的高性能通用大语言模型。本手册为技术团队提供完整的本地部署指南,涵盖硬件配置、国产芯片适配、量化方案、异构方案、云端替代方案及完整671B MoE模型的部署方法。
二、本地部署核心配置要求
1. 模型参数与硬件对应表
模型参数 (B) | Windows 配置要求 | Mac 配置要求 | 适用场景 |
---|---|---|---|
1.5B | - RAM: 4GB- GPU: 集成显卡/现代CPU- 存储:5GB | - 内存: 8GB (M1/M2/M3)- 存储:5GB | 简单文本生成、基础代码补全 |
7B | - RAM: 8-10GB- GPU: GTX 1680 (4-bit 量化)- 存储:8GB | - 内存: 16GB (M2 Pro/M3)- 存储:8GB | 中等复杂度问答、代码调试 |
8B | - RAM: 16GB- GPU: RTX 4080 (16GB VRAM)- 存储:10GB | - 内存: 32GB (M3 Max)- 存储:10GB | 中等复杂度推理、文档生成 |
14B | - RAM: 24GB- GPU: RTX 3090 (24GB VRAM) | - 内存: 32GB (M3 Max)- 存储:20GB | 复杂推理、技术文档生成 |
32B | 企业级部署(需多卡并联) | 暂不支持 | 科研计算、大规模数据处理 |
70B | 企业级部署(需多卡并联) | 暂不支持 | 大规模推理、超复杂任务 |
671B | 企业级部署(需多卡并联) | 暂不支持 | 超大规模科研计算、高性能计算 |
2. 算力需求分析
模型版本 | 参数 (B) | 计算精度 | 模型大小 | VRAM 要求 (GB) | 参考 GPU 配置 |
---|---|---|---|---|---|
DeepSeek-R1 | 671B | FP8 | ~1,342GB | ≥1,342GB | 多 GPU 配置(如:NVIDIA A100 80GB * 16) |
DeepSeek-R1-Distill-Llama-70B | 70B | BF16 | 43GB | ~32.7GB | 多 GPU 配置(如:NVIDIA A100 80GB * 2) |
DeepSeek-R1-Distill-Qwen-32B | 32B | BF16 | 20GB | ~14.9GB | 多 GPU 配置(如:NVIDIA RTX 4090 * 4) |
DeepSeek-R1-Distill-Qwen-14B | 14B | BF16 | 9GB | ~6.5GB | NVIDIA RTX 3080 10GB 或更高 |
DeepSeek-R1-Distill-Llama-8B | 8B | BF16 | 4.9GB | ~3.7GB | NVIDIA RTX 3070 8GB 或更高 |
DeepSeek-R1-Distill-Qwen-7B | 7B | BF16 | 4.7GB | ~3.3GB | NVIDIA RTX 3070 8GB 或更高 |
DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | BF16 | 1.1GB | ~0.7GB | NVIDIA RTX 3060 12GB 或更高 |
补充说明:
- VRAM 要求:表中列出的 VRAM 需求为最低要求,实际部署时建议预留 20%-30% 的额外显存以应对模型加载和运行中的峰值需求。
- 多 GPU 配置:对于大规模模型(如 32B+),建议使用多 GPU 并联以提升计算效率和稳定性。
- 计算精度:FP8 和 BF16 为当前主流的高效计算精度,能够在保证模型性能的同时降低显存占用。
- 适用场景:不同参数规模的模型适用于不同复杂度的任务,用户可根据实际需求选择合适的模型版本。
- 企业级部署:对于 671B 等超大规模模型,建议使用专业级 GPU 集群(如 NVIDIA A100)进行部署,以满足高性能计算需求。
三、国产芯片与硬件适配方案
1. 国内生态合作伙伴动态
企业 | 适配内容 | 性能对标 (vs NVIDIA) |
---|---|---|
华为昇腾 | 昇腾 910B 原生支持 R1 全系列,提供端到端推理优化 | |
沐曦 GPU | MXN 系列支持 70B 模型 BF16 推理,显存利用率提升 30% | 等效 RTX 3090 |
海光 DCU | 适配 V3/R1 模型,性能对标 NVIDIA A100 | 等效 A100 (BF16) |
2. 国产硬件推荐配置
模型参数 | 推荐方案 | 适用场景 |
---|---|---|
1.5B | 太初 T100 加速卡 | 个人开发者原型验证 |
14B | 昆仑芯 K200 集群 | 企业级复杂任务推理 |
32B | 壁彻算力平台 + 昇腾 910B 集群 | 科研计算与多模态处理 |
四、云端部署替代方案
1. 国内云服务商推荐
平台 | 核心优势 | 适用场景 |
---|---|---|
硅基流动 | 官方推荐 API,低延迟,支持多模态模型 | 企业级高并发推理 |
腾讯云 | 一键部署 + 限时免费体验,支持 VPC 私有化 | 中小规模模型快速上线 |
PPIO 派欧云 | 价格仅为 OpenAI 1/20,注册赠 5000 万 tokens | 低成本尝鲜与测试 |
2. 国际接入渠道(需魔法或外企上网环境)
- 英伟达 NIM:企业级 GPU 集群部署(链接)
- Groq:超低延迟推理(链接)
五、Ollama+Unsloth 部署
1. 量化方案与模型选择
量化版本 | 文件体积 | 最低内存 + 显存需求 | 适用场景 |
---|---|---|---|
DeepSeek-R1-UD-IQ1_M | 158GB | ≥200GB | 消费级硬件(如 Mac Studio) |
DeepSeek-R1-Q4_K_M | 404 GB | ≥500GB | 高性能服务器/云 GPU |
下载地址:
- HuggingFace 模型库
- Unsloth AI 官方说明
2. 硬件配置建议
硬件类型 | 推荐配置 | 性能表现(短文本生成) |
---|---|---|
消费级设备 | Mac Studio(192GB 统一内存) | 10+ token/秒 |
高性能服务器 | 4 RTX 4090 (96GB 显存 + 384GB 内存) | 7-8 token/秒(混合推理) |
3. 部署步骤(Linux 示例)
1. 安装依赖工具:
# 安装 llama.cpp(用于合并分片文件)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install llama.cpp
2. 下载并合并模型分片:
llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_S.gguf
3. 安装 Ollama:
curl -fsSL https://ollama.com/install.sh | sh
4. 创建 Modelfile:
FROM /path/to/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28 # 每块 RTX 4090 加载 7 层(共 4 卡)
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<|end▁of▁thinking $|>{{{ .Prompt }}}<|end▁of▁thinking|>"
5. 运行模型:
ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile
4. 性能调优与测试
- GPU 利用率低:升级高带宽内存(如 DDR5 5600+)。
- 扩展交换空间:
sudo fallocate -l 100G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
满血 671B 部署命令
- VLLM:
vllm serve deepseek-ai/deepseek-r1-671b --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
- SGLang:
python3 -m sglang.launch_server --model deepseek-ai/deepseek-r1-671b --trust-remote-code --tp 2
六、注意事项与风险提示
1. 成本警示:
- 70B 模型:需 3 张以上 80G 显存显卡(如 RTX A6000),单卡用户不可行。
- 671B 模型:需 8xH100 集群,仅限超算中心部署。
2. 替代方案:
- 个人用户推荐使用云端 API(如硅基流动),免运维且合规。
3. 国产硬件兼容性:
- 需使用定制版框架(如昇腾 CANN、沐曦 MXMLLM)。
七、附录:技术支持与资源
- 华为昇腾:昇腾云服务
- 沐曦 GPU:免费 API 体验
- 李锡涵博客:完整部署教程
八、异构 GPUStack 方案
GPUStack 开源项目
https://github.com/gpustack/gpustack/
模型资源测算工具
- GGUF Parser(https://github.com/gpustack/gguf-parser-go)用于手动计算显存需求。
GPUStack
DeepSeek 全平台私有部署
Model | Context Size | VRAM Requirement | Recommended GPUs |
---|---|---|---|
R1-Distill-Qwen-1.5B (Q4_K_M) | 32K | 2.86 GiB | RTX 4060 8GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-1.5B (Q8_0) | 32K | 3.47 GiB | RTX 4060 8GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-1.5B (FP16) | 32K | 4.82 GiB | RTX 4060 8GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-7B (Q4_K_M) | 32K | 7.90 GiB | RTX 4070 12GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-7B (Q8_0) | 32K | 10.83 GiB | RTX 4080 16GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-7B (FP16) | 32K | 17.01 GiB | RTX 4090 24GB, MacBook Pro M4 Max 36G |
R1-Distill-Llama-8B (Q4_K_M) | 32K | 10.64 GiB | RTX 4080 16GB, MacBook Pro M4 Max 36G |
R1-Distill-Llama-8B (Q8_0) | 32K | 13.77 GiB | RTX 4080 16GB, MacBook Pro M4 Max 36G |
R1-Distill-Llama-8B (FP16) | 32K | 20.32 GiB | RTX 4090 24GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-14B (Q4_K_M) | 32K | 16.80 GiB | RTX 4090 24GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-14B (Q8_0) | 32K | 22.69 GiB | RTX 4090 24GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-14B (FP16) | 32K | 34.91 GiB | RTX 4090 24GB x2, MacBook Pro M4 Max 48G |
R1-Distill-Qwen-32B (Q4_K_M) | 32K | 28.92 GiB | RTX 4080 16GB x2, MacBook Pro M4 Max 48G |
R1-Distill-Qwen-32B (Q8_0) | 32K | 42.50 GiB | RTX 4090 24GB x3, MacBook Pro M4 Max 64G |
R1-Distill-Qwen-32B (FP16) | 32K | 70.43 GiB | RTX 4090 24GB x4, MacBook Pro M4 Max 128G |
R1-Distill-Llama-70B (Q4_K_M) | 32K | 53.41 GiB | RTX 4090 24GB x5, A100 80GB x1, MacBook Pro M4 Max 128G |
R1-Distill-Llama-70B (Q8_0) | 32K | 83.15 GiB | RTX 4090 24GB x5, MacBook Pro M4 Max 128G |
R1-Distill-Llama-70B (FP16) | 32K | 143.83 GiB | A100 80GB x2, Mac Studio M2 Ultra 192G |
R1-671B (UD-IQ1_S) | 32K | 225.27 GiB | A100 80GB x4, Mac Studio M2 Ultra 192G |
R1-671B (UD-IQ1_M) | 32K | 251.99 GiB | A100 80GB x4, Mac Studio M2 Ultra 192G x2 |
R1-671B (UD-IQ2_XXS) | 32K | 277.36 GiB | A100 80GB x5, Mac Studio M2 Ultra 192G x2 |
R1-671B (UD-Q2_K_XL) | 32K | 305.71 GiB | A100 80GB x5, Mac Studio M2 Ultra 192G x2 |
R1-671B (Q2_K_XS) | 32K | 300.73 GiB | A100 80GB x5, Mac Studio M2 Ultra 192G x2 |
R1-671B (Q2_K/Q2_K_L) | 32K | 322.14 GiB | A100 80GB x6, Mac Studio M2 Ultra 192G x2 |
R1-671B (Q3_K_M) | 32K | 392.06 GiB | A100 80GB x7 |
R1-671B (Q4_K_M) | 32K | 471.33 GiB | A100 80GB x8 |
R1-671B (Q5_K_M) | 32K | 537.31 GiB | A100 80GB x9 |
R1-671B (Q6_K) | 32K | 607.42 GiB | A100 80GB x11 |
R1-671B (Q8_0) | 32K | 758.54 GiB | A100 80GB x13 |
R1-671B (FP8) | 32K | 805.2 GiB | H200 141GB x8 |
结语
Deepseek R1 的本地化部署需要极高的硬件投入和技术门槛,个人用户务必谨慎,企业用户应充分评估需求与成本。通过国产化适配与云端服务,可以显著降低风险并提升效率。技术无止境,理性规划方能降本增效!
全球企业个人渠道附表
- 秘塔搜索
- 360纳米AI搜索
- 硅基流动
- 字节跳动火山引擎
- 百度云千帆
- 英伟达NIM
- Groq
- Fireworks
- Chutes
- Github
- POE
- Cursor
- Monica
- Lambda
- Cerebras
- Perplexity
- 阿里巴巴云百炼
为需要魔法或外企上网环境
芯片企业支持附表
表1:支持 DeepSeek-R1 的云厂商
日期 | 名称/网址 | 发布相关信息 |
---|---|---|
1月 28日 | 无问芯穹 | 异构云的绝妙组合 |
1月 28日 | PPIO派欧云 | 重磅!DeepSeek-R1上线PPIO派欧算力云 |
2月1 日 | 硅基流动 x 华为 | 首发!硅基流动x华为云联合推出基于昇腾云的DeepSeekR1&V3推理服务! |
2月2 日 | Z stark(云轴科技) | 首发!ZStack智塔支持DeepSeekV3/R1/JanusPro,多种国产CPU/GPU可私有化部署 |
2月3 日 | 百度智能云千帆 | 百度智能云千帆全面支持DeepSeek-R1/V3调用,价格超低 |
2月3 日 | 超算互联网 | 超算互联网上线DeepSeek系列模型,提供超智融合算力支持 |
2月4 日 | 华为(昇腾社区) | 昇腾蛇年开工送大礼,DeepSeek系列新模型正式上线昇腾社区 |
2月4 日 | 路晨x华为昇腾 | 路晨x华为昇腾,携手推出基于国产算力的DeepSeekR1系列推理API及云镜像服务 |
2月4 日 | 青云科技 | 限时免费,一键部署!基石智算正式上线DeepSeek-R1系列模型 |
2月4 日 | 天数智芯 | 一天适配!天数智芯联合GiteeAi正式上线DeepseekR1模型服务 |
2月4 日 | 摩尔线程 | 致敬Deepseek:以国产GPU为基,燎原中国Al生态之火 |
2月4 日 | 海光信息 | DeepSeekV3和R1,培训完成海光DCU适配并正式上线 |
2月5 日 | 沐曦 | DeepSeek-V3满血版在国产沐曦GPU首发体验上线 |
2月5 日 | 海光信息 | 海都昂DcCU陈工适配DeepSeek-Janus-pro多模态大模型 |
2月5 日 | 京东云 | 一键部署!京东云全面上线DeepSeek-R1/V3 |
2月5 日 | 壁仞科技 | DeepSeekR1在壁仞国产Ai算力平台发布,全系列模型一站式赋能开发者 |
2月5 日 | 联通云(中国联通) | “哪吒闹海”!联通云上架DeepSeek-R1系列模型! |
2月5 日 | 移动云(中国移动) | 全版本、全尺寸、全功能!移动云全面上线DeepSeek |
2月5 日 | 优刻得 | 优刻得基于国产芯片适配DeepSeek全系列模型 |
2月5 日 | 太初元碁 | 基于太初T100加速卡2小时适配DeepSeek-R1系列模型,一键体验,免费API服务 |
2月5 日 | 云天励飞 | DeepEdge10已完成DeepSeek-R1系列模型适配 |
2月6 日 | 天翼云(中国电信) | 国产Al生态新突破!“息壤”+DeepSeek,王炸! |
2月6 日 | 燧原科技 | 原科技实现全国各地智算中心DeepSeek的全量推理服务部署 |
2月6 日 | 昆仑芯 | 国产Al卡Deepseek训练推理全版本适配,性能卓越,一键部署等你来 |
2月7 日 | 浪潮云 | 浪潮云率先发布671BDeepSeek大模型一体机解决方案 |
2月7 日 | 北京超算 | 北京超算xDeepSeek:双擎爆燃,驱动千亿级Al创新风暴 |
2月8 日 | 中国电子云 | 中国电子云上线DeepSeek-R1/V3全量模型开启私有化部署新篇 |
2月8 日 | 金山云 | 金山云支持DeepSeek-R1/V3 |
2月8 日 | 商汤大装置 | 商汤大装置上架DeepSeek系列模型,限免体验、服务升级! |
表2:支持 DeepSeek-R1 的企业
日期 | 名称/网址 | 发布相关信息 |
---|---|---|
1月 30 日 | 360纳米AI搜索 | 纳米AI搜索上线“DeepSeek-R1"大模型满血版 |
2月 3日 | 秘塔AI搜索 | 秘塔AI接入满血版DeepSeekR1推理模型 |
2月 5日 | 小艺助手(华为) | 华为小艺助手已接入DeepSeek,此前华为云宣布上线基于昇腾云服务的DeepSeekR1/V3推理服务 |
2月 5日 | 作家助手(阅文集团) | 行业首家!阅文部署DeepSeek,“作家助手”升级三大辅助创作功能 |
2月 5日 | 万兴科技 | 万兴科技:已完成DeepSeek-R1大模型适配并落地多产品 |
2月 6日 | 有道小P | 拥抱DeepSeek为代表的推理大模型,网易有道加速AI教育落地 |
2月 6日 | 云学堂 | 云学堂接入DeepSeek产品AI能力全面升级 |
2月 7日 | 钉钉 | 钉钉AI助理接入DeepSeek,支持深度思考 |
2月 7日 | 什么值得买 | 值得买:已接入DeepSeek模型产品 |
2月 7日 | 同花顺 | 同花顺问财2.0重磅升级:注入"慢思考"智慧,打造更理性的投资决策助手 |
2月 8日 | 天工AI(昆仑万维) | 昆仑万维旗下天工AI正式上线DeepSeekR1+联网搜索 |
2月 8日 | 星际魅族 | 重磅官宣!FlymeAIOS已完成DeepSeek-R1大模型接入 |
2月 8日 | 荣耀 | 荣耀已接入DeepSeek |
表3:支持 DeepSeek-R1 的企业汇总
名称/网址 | 发布相关信息 |
---|---|
DeepSeek | DeepSeek-R1发布,性能对标 OpenAI o1 正式版 |
无问芯穹 | 无问芯穹 Infini-Al 异构云现已上架 DeepSeek-R1-Distill,国产模型与异构云的绝妙组合 |
PPIO派欧云 | 重磅!DeepSeek-R1上线 PPIO 派欧算力云 |
硅基流动华为 | 首发!硅基流动x华为云联合推出基于昇腾云的 DeepSeekR1&V3 推理服务! |
Z stark(云轴科技) | 首发!ZStack 智塔支持 DeepSeekV3/R1/JanusPro,多种国产 CPU/GPU 可私有化部署 |
百度智能云千帆 | 百度智能云千帆全面支持 DeepSeek-R1/V3 调用,价格超低 |
超算互联网 | 超算互联网上线 DeepSeek 系列模型,提供超智融合算力支持 |
华为(昇腾社区) | 昇腾蛇年开工送大礼,DeepSeek 系列新模型正式上线昇腾社区 |
路晨x华为昇腾 | 路晨x华为昇腾,携手推出基于国产算力的 DeepSeekR1 系列推理 API 及云分发服务 |
青云科技 | 限时免费,一键部署!基石智算正式上线 DeepSeek-R1 系列模型 |
京东云 | 一键部署!京东云全面上线 DeepSeek-R1/V3 |
联通云(中国联通) | “哪吒闹海”!联通云上架 DeepSeek-R1 系列模型! |
移动云(中国移动) | 全版本、全尺寸、全功能!移动云全面上线 DeepSeek |
优刻得 | 优刻得基于国产芯片适配 DeepSeek 全系列模型 |
天翼云 (中国电信) | 国产 AI 生态新突破!“息壤”+ DeepSeek,王炸! |
神州数码 | 3 分钟部署高性能 AI 模型 DeepSeek,神州数码助力企业智能化转型 |
开普云 | 开普云开悟大模型应用软件和端侧一体机全面接入 DeepSeek |
金蝶云苍穹 | 金蝶全面接入 DeepSeek 大模型,助力企业加速 AI 应用! |
并行科技 | 服务器繁忙?并行科技助您 DeepSeek 自由! |
首都在线 | 首都在线云平台上线 DeepSeek-R1 系列模型 |
浪潮云 | 浪潮云率先发布 671B DeepSeek 大模型一体机解决方案 |
北京超算 | 北京超算 x DeepSeek: 双擎爆燃,驱动千亿级 AI 创新风暴 |
灵犀使能(紫光股份) | 紫光股份:灵犀使能平台实现对 DeepSeekV3/R1 模型的纳管和上架 |
中国电子云 | 中国电子云上线 DeepSeek-R1/V3 全量模型开启私有化部署新篇 |
金山云 | 金山云支持 DeepSeek-R1/V3 |
商汤大装置 | 商汤大装置上架 DeepSeek 系列模型,限免体验、服务升级! |
360纳米AI搜索 | 纳米 AI 搜索上线 “DeepSeek-R1” 大模型满血版 |
秘塔AI搜索 | 秘塔 AI 接入满血版 DeepSeek R1 推理模型 |
小艺助手(华为) | 华为小艺助手已接入 DeepSeek,此前华为云宣布上线基于昇腾云服务的 DeepSeek R1/V3 推理服务 |
作家助手(阅文集团) | 行业首家!阅文部署 DeepSeek,“作家助手”升级三大辅助创作功能 |
万兴科技 | 万兴科技:已完成 DeepSeek-R1 大模型适配并落地多产品 |
有道小P | 拥抱 DeepSeek 为代表的推理大模型,网易有道加速 AI 教育落地 |
云学堂 | 云学堂接入 DeepSeek 产品 AI 能力全面升级 |
钉钉 | 钉钉 AI 助理接入 DeepSeek,支持深度思考 |
什么值得买 | 值得买:已接入 DeepSeek 模型产品 |
飞书 x DeepSeek 相关 AI 能力汇总(公开版) | |
同花顺 | 同花顺问财 2.0 重磅升级:注入 "慢思考" 智慧,打造更理性的投资决策助手 |
天工 AI(昆仑万维) | 昆仑万维旗下天工 AI 正式上线 DeepSeek R1 + 联网搜索 |
星际魅族 | 重磅官宣!Flyme AI OS 已完成 DeepSeek-R1 大模型接入 |
荣耀 | 荣耀已接入 DeepSeek |