一、简介
Deepseek R1 是一款支持复杂推理、多模态处理、技术文档生成的高性能通用大语言模型。本手册为技术团队提供完整的本地部署指南,涵盖硬件配置、国产芯片适配、量化方案、异构方案、云端替代方案及完整671B MoE模型的部署方法。
二、本地部署核心配置要求
1. 模型参数与硬件对应表
模型参数 (B) |
Windows 配置要求 |
Mac 配置要求 |
适用场景 |
1.5B |
- RAM: 4GB- GPU: 集成显卡/现代CPU- 存储:5GB |
- 内存: 8GB (M1/M2/M3)- 存储:5GB |
简单文本生成、基础代码补全 |
7B |
- RAM: 8-10GB- GPU: GTX 1680 (4-bit 量化)- 存储:8GB |
- 内存: 16GB (M2 Pro/M3)- 存储:8GB |
中等复杂度问答、代码调试 |
8B |
- RAM: 16GB- GPU: RTX 4080 (16GB VRAM)- 存储:10GB |
- 内存: 32GB (M3 Max)- 存储:10GB |
中等复杂度推理、文档生成 |
14B |
- RAM: 24GB- GPU: RTX 3090 (24GB VRAM) |
- 内存: 32GB (M3 Max)- 存储:20GB |
复杂推理、技术文档生成 |
32B |
企业级部署(需多卡并联) |
暂不支持 |
科研计算、大规模数据处理 |
70B |
企业级部署(需多卡并联) |
暂不支持 |
大规模推理、超复杂任务 |
671B |
企业级部署(需多卡并联) |
暂不支持 |
超大规模科研计算、高性能计算 |
2. 算力需求分析
模型版本 |
参数 (B) |
计算精度 |
模型大小 |
VRAM 要求 (GB) |
参考 GPU 配置 |
DeepSeek-R1 |
671B |
FP8 |
~1,342GB |
≥1,342GB |
多 GPU 配置(如:NVIDIA A100 80GB * 16) |
DeepSeek-R1-Distill-Llama-70B |
70B |
BF16 |
43GB |
~32.7GB |
多 GPU 配置(如:NVIDIA A100 80GB * 2) |
DeepSeek-R1-Distill-Qwen-32B |
32B |
BF16 |
20GB |
~14.9GB |
多 GPU 配置(如:NVIDIA RTX 4090 * 4) |
DeepSeek-R1-Distill-Qwen-14B |
14B |
BF16 |
9GB |
~6.5GB |
NVIDIA RTX 3080 10GB 或更高 |
DeepSeek-R1-Distill-Llama-8B |
8B |
BF16 |
4.9GB |
~3.7GB |
NVIDIA RTX 3070 8GB 或更高 |
DeepSeek-R1-Distill-Qwen-7B |
7B |
BF16 |
4.7GB |
~3.3GB |
NVIDIA RTX 3070 8GB 或更高 |
DeepSeek-R1-Distill-Qwen-1.5B |
1.5B |
BF16 |
1.1GB |
~0.7GB |
NVIDIA RTX 3060 12GB 或更高 |

补充说明:
- VRAM 要求:表中列出的 VRAM 需求为最低要求,实际部署时建议预留 20%-30% 的额外显存以应对模型加载和运行中的峰值需求。
- 多 GPU 配置:对于大规模模型(如 32B+),建议使用多 GPU 并联以提升计算效率和稳定性。
- 计算精度:FP8 和 BF16 为当前主流的高效计算精度,能够在保证模型性能的同时降低显存占用。
- 适用场景:不同参数规模的模型适用于不同复杂度的任务,用户可根据实际需求选择合适的模型版本。
- 企业级部署:对于 671B 等超大规模模型,建议使用专业级 GPU 集群(如 NVIDIA A100)进行部署,以满足高性能计算需求。
三、国产芯片与硬件适配方案
1. 国内生态合作伙伴动态
企业 |
适配内容 |
性能对标 (vs NVIDIA) |
华为昇腾 |
昇腾 910B 原生支持 R1 全系列,提供端到端推理优化 |
|
沐曦 GPU |
MXN 系列支持 70B 模型 BF16 推理,显存利用率提升 30% |
等效 RTX 3090 |
海光 DCU |
适配 V3/R1 模型,性能对标 NVIDIA A100 |
等效 A100 (BF16) |
2. 国产硬件推荐配置
模型参数 |
推荐方案 |
适用场景 |
1.5B |
太初 T100 加速卡 |
个人开发者原型验证 |
14B |
昆仑芯 K200 集群 |
企业级复杂任务推理 |
32B |
壁彻算力平台 + 昇腾 910B 集群 |
科研计算与多模态处理 |
四、云端部署替代方案
1. 国内云服务商推荐
平台 |
核心优势 |
适用场景 |
硅基流动 |
官方推荐 API,低延迟,支持多模态模型 |
企业级高并发推理 |
腾讯云 |
一键部署 + 限时免费体验,支持 VPC 私有化 |
中小规模模型快速上线 |
PPIO 派欧云 |
价格仅为 OpenAI 1/20,注册赠 5000 万 tokens |
低成本尝鲜与测试 |
2. 国际接入渠道(需魔法或外企上网环境)
- 英伟达 NIM:企业级 GPU 集群部署(链接)
- Groq:超低延迟推理(链接)
五、Ollama+Unsloth 部署
1. 量化方案与模型选择
量化版本 |
文件体积 |
最低内存 + 显存需求 |
适用场景 |
DeepSeek-R1-UD-IQ1_M |
158GB |
≥200GB |
消费级硬件(如 Mac Studio) |
DeepSeek-R1-Q4_K_M |
404 GB |
≥500GB |
高性能服务器/云 GPU |
下载地址:
2. 硬件配置建议
硬件类型 |
推荐配置 |
性能表现(短文本生成) |
消费级设备 |
Mac Studio(192GB 统一内存) |
10+ token/秒 |
高性能服务器 |
4 RTX 4090 (96GB 显存 + 384GB 内存) |
7-8 token/秒(混合推理) |
3. 部署步骤(Linux 示例)
1. 安装依赖工具:
# 安装 llama.cpp(用于合并分片文件)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install llama.cpp
2. 下载并合并模型分片:
llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_S.gguf
3. 安装 Ollama:
curl -fsSL https://ollama.com/install.sh | sh
4. 创建 Modelfile:
FROM /path/to/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28 # 每块 RTX 4090 加载 7 层(共 4 卡)
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<|end▁of▁thinking $|>{{{ .Prompt }}}<|end▁of▁thinking|>"
5. 运行模型:
ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile
4. 性能调优与测试
- GPU 利用率低:升级高带宽内存(如 DDR5 5600+)。
- 扩展交换空间:
sudo fallocate -l 100G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
满血 671B 部署命令
vllm serve deepseek-ai/deepseek-r1-671b --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
python3 -m sglang.launch_server --model deepseek-ai/deepseek-r1-671b --trust-remote-code --tp 2
六、注意事项与风险提示
1. 成本警示:
- 70B 模型:需 3 张以上 80G 显存显卡(如 RTX A6000),单卡用户不可行。
- 671B 模型:需 8xH100 集群,仅限超算中心部署。
2. 替代方案:
- 个人用户推荐使用云端 API(如硅基流动),免运维且合规。
3. 国产硬件兼容性:
- 需使用定制版框架(如昇腾 CANN、沐曦 MXMLLM)。
七、附录:技术支持与资源
- 华为昇腾:昇腾云服务
- 沐曦 GPU:免费 API 体验
- 李锡涵博客:完整部署教程
八、异构 GPUStack 方案
GPUStack 开源项目
https://github.com/gpustack/gpustack/
模型资源测算工具
- GGUF Parser(https://github.com/gpustack/gguf-parser-go)用于手动计算显存需求。
GPUStack
DeepSeek 全平台私有部署
Model |
Context Size |
VRAM Requirement |
Recommended GPUs |
R1-Distill-Qwen-1.5B (Q4_K_M) |
32K |
2.86 GiB |
RTX 4060 8GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-1.5B (Q8_0) |
32K |
3.47 GiB |
RTX 4060 8GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-1.5B (FP16) |
32K |
4.82 GiB |
RTX 4060 8GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-7B (Q4_K_M) |
32K |
7.90 GiB |
RTX 4070 12GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-7B (Q8_0) |
32K |
10.83 GiB |
RTX 4080 16GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-7B (FP16) |
32K |
17.01 GiB |
RTX 4090 24GB, MacBook Pro M4 Max 36G |
R1-Distill-Llama-8B (Q4_K_M) |
32K |
10.64 GiB |
RTX 4080 16GB, MacBook Pro M4 Max 36G |
R1-Distill-Llama-8B (Q8_0) |
32K |
13.77 GiB |
RTX 4080 16GB, MacBook Pro M4 Max 36G |
R1-Distill-Llama-8B (FP16) |
32K |
20.32 GiB |
RTX 4090 24GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-14B (Q4_K_M) |
32K |
16.80 GiB |
RTX 4090 24GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-14B (Q8_0) |
32K |
22.69 GiB |
RTX 4090 24GB, MacBook Pro M4 Max 36G |
R1-Distill-Qwen-14B (FP16) |
32K |
34.91 GiB |
RTX 4090 24GB x2, MacBook Pro M4 Max 48G |
R1-Distill-Qwen-32B (Q4_K_M) |
32K |
28.92 GiB |
RTX 4080 16GB x2, MacBook Pro M4 Max 48G |
R1-Distill-Qwen-32B (Q8_0) |
32K |
42.50 GiB |
RTX 4090 24GB x3, MacBook Pro M4 Max 64G |
R1-Distill-Qwen-32B (FP16) |
32K |
70.43 GiB |
RTX 4090 24GB x4, MacBook Pro M4 Max 128G |
R1-Distill-Llama-70B (Q4_K_M) |
32K |
53.41 GiB |
RTX 4090 24GB x5, A100 80GB x1, MacBook Pro M4 Max 128G |
R1-Distill-Llama-70B (Q8_0) |
32K |
83.15 GiB |
RTX 4090 24GB x5, MacBook Pro M4 Max 128G |
R1-Distill-Llama-70B (FP16) |
32K |
143.83 GiB |
A100 80GB x2, Mac Studio M2 Ultra 192G |
R1-671B (UD-IQ1_S) |
32K |
225.27 GiB |
A100 80GB x4, Mac Studio M2 Ultra 192G |
R1-671B (UD-IQ1_M) |
32K |
251.99 GiB |
A100 80GB x4, Mac Studio M2 Ultra 192G x2 |
R1-671B (UD-IQ2_XXS) |
32K |
277.36 GiB |
A100 80GB x5, Mac Studio M2 Ultra 192G x2 |
R1-671B (UD-Q2_K_XL) |
32K |
305.71 GiB |
A100 80GB x5, Mac Studio M2 Ultra 192G x2 |
R1-671B (Q2_K_XS) |
32K |
300.73 GiB |
A100 80GB x5, Mac Studio M2 Ultra 192G x2 |
R1-671B (Q2_K/Q2_K_L) |
32K |
322.14 GiB |
A100 80GB x6, Mac Studio M2 Ultra 192G x2 |
R1-671B (Q3_K_M) |
32K |
392.06 GiB |
A100 80GB x7 |
R1-671B (Q4_K_M) |
32K |
471.33 GiB |
A100 80GB x8 |
R1-671B (Q5_K_M) |
32K |
537.31 GiB |
A100 80GB x9 |
R1-671B (Q6_K) |
32K |
607.42 GiB |
A100 80GB x11 |
R1-671B (Q8_0) |
32K |
758.54 GiB |
A100 80GB x13 |
R1-671B (FP8) |
32K |
805.2 GiB |
H200 141GB x8 |
结语
Deepseek R1 的本地化部署需要极高的硬件投入和技术门槛,个人用户务必谨慎,企业用户应充分评估需求与成本。通过国产化适配与云端服务,可以显著降低风险并提升效率。技术无止境,理性规划方能降本增效!
全球企业个人渠道附表
- 秘塔搜索
- 360纳米AI搜索
- 硅基流动
- 字节跳动火山引擎
- 百度云千帆
- 英伟达NIM
- Groq
- Fireworks
- Chutes
- Github
- POE
- Cursor
- Monica
- Lambda
- Cerebras
- Perplexity
- 阿里巴巴云百炼
为需要魔法或外企上网环境
芯片企业支持附表
表1:支持 DeepSeek-R1 的云厂商
日期 |
名称/网址 |
发布相关信息 |
1月 28日 |
无问芯穹 |
异构云的绝妙组合 |
1月 28日 |
PPIO派欧云 |
重磅!DeepSeek-R1上线PPIO派欧算力云 |
2月1 日 |
硅基流动 x 华为 |
首发!硅基流动x华为云联合推出基于昇腾云的DeepSeekR1&V3推理服务! |
2月2 日 |
Z stark(云轴科技) |
首发!ZStack智塔支持DeepSeekV3/R1/JanusPro,多种国产CPU/GPU可私有化部署 |
2月3 日 |
百度智能云千帆 |
百度智能云千帆全面支持DeepSeek-R1/V3调用,价格超低 |
2月3 日 |
超算互联网 |
超算互联网上线DeepSeek系列模型,提供超智融合算力支持 |
2月4 日 |
华为(昇腾社区) |
昇腾蛇年开工送大礼,DeepSeek系列新模型正式上线昇腾社区 |
2月4 日 |
路晨x华为昇腾 |
路晨x华为昇腾,携手推出基于国产算力的DeepSeekR1系列推理API及云镜像服务 |
2月4 日 |
青云科技 |
限时免费,一键部署!基石智算正式上线DeepSeek-R1系列模型 |
2月4 日 |
天数智芯 |
一天适配!天数智芯联合GiteeAi正式上线DeepseekR1模型服务 |
2月4 日 |
摩尔线程 |
致敬Deepseek:以国产GPU为基,燎原中国Al生态之火 |
2月4 日 |
海光信息 |
DeepSeekV3和R1,培训完成海光DCU适配并正式上线 |
2月5 日 |
沐曦 |
DeepSeek-V3满血版在国产沐曦GPU首发体验上线 |
2月5 日 |
海光信息 |
海都昂DcCU陈工适配DeepSeek-Janus-pro多模态大模型 |
2月5 日 |
京东云 |
一键部署!京东云全面上线DeepSeek-R1/V3 |
2月5 日 |
壁仞科技 |
DeepSeekR1在壁仞国产Ai算力平台发布,全系列模型一站式赋能开发者 |
2月5 日 |
联通云(中国联通) |
“哪吒闹海”!联通云上架DeepSeek-R1系列模型! |
2月5 日 |
移动云(中国移动) |
全版本、全尺寸、全功能!移动云全面上线DeepSeek |
2月5 日 |
优刻得 |
优刻得基于国产芯片适配DeepSeek全系列模型 |
2月5 日 |
太初元碁 |
基于太初T100加速卡2小时适配DeepSeek-R1系列模型,一键体验,免费API服务 |
2月5 日 |
云天励飞 |
DeepEdge10已完成DeepSeek-R1系列模型适配 |
2月6 日 |
天翼云(中国电信) |
国产Al生态新突破!“息壤”+DeepSeek,王炸! |
2月6 日 |
燧原科技 |
原科技实现全国各地智算中心DeepSeek的全量推理服务部署 |
2月6 日 |
昆仑芯 |
国产Al卡Deepseek训练推理全版本适配,性能卓越,一键部署等你来 |
2月7 日 |
浪潮云 |
浪潮云率先发布671BDeepSeek大模型一体机解决方案 |
2月7 日 |
北京超算 |
北京超算xDeepSeek:双擎爆燃,驱动千亿级Al创新风暴 |
2月8 日 |
中国电子云 |
中国电子云上线DeepSeek-R1/V3全量模型开启私有化部署新篇 |
2月8 日 |
金山云 |
金山云支持DeepSeek-R1/V3 |
2月8 日 |
商汤大装置 |
商汤大装置上架DeepSeek系列模型,限免体验、服务升级! |
表2:支持 DeepSeek-R1 的企业
日期 |
名称/网址 |
发布相关信息 |
1月 30 日 |
360纳米AI搜索 |
纳米AI搜索上线“DeepSeek-R1"大模型满血版 |
2月 3日 |
秘塔AI搜索 |
秘塔AI接入满血版DeepSeekR1推理模型 |
2月 5日 |
小艺助手(华为) |
华为小艺助手已接入DeepSeek,此前华为云宣布上线基于昇腾云服务的DeepSeekR1/V3推理服务 |
2月 5日 |
作家助手(阅文集团) |
行业首家!阅文部署DeepSeek,“作家助手”升级三大辅助创作功能 |
2月 5日 |
万兴科技 |
万兴科技:已完成DeepSeek-R1大模型适配并落地多产品 |
2月 6日 |
有道小P |
拥抱DeepSeek为代表的推理大模型,网易有道加速AI教育落地 |
2月 6日 |
云学堂 |
云学堂接入DeepSeek产品AI能力全面升级 |
2月 7日 |
钉钉 |
钉钉AI助理接入DeepSeek,支持深度思考 |
2月 7日 |
什么值得买 |
值得买:已接入DeepSeek模型产品 |
2月 7日 |
同花顺 |
同花顺问财2.0重磅升级:注入"慢思考"智慧,打造更理性的投资决策助手 |
2月 8日 |
天工AI(昆仑万维) |
昆仑万维旗下天工AI正式上线DeepSeekR1+联网搜索 |
2月 8日 |
星际魅族 |
重磅官宣!FlymeAIOS已完成DeepSeek-R1大模型接入 |
2月 8日 |
荣耀 |
荣耀已接入DeepSeek |
表3:支持 DeepSeek-R1 的企业汇总
名称/网址 |
发布相关信息 |
DeepSeek |
DeepSeek-R1发布,性能对标 OpenAI o1 正式版 |
无问芯穹 |
无问芯穹 Infini-Al 异构云现已上架 DeepSeek-R1-Distill,国产模型与异构云的绝妙组合 |
PPIO派欧云 |
重磅!DeepSeek-R1上线 PPIO 派欧算力云 |
硅基流动华为 |
首发!硅基流动x华为云联合推出基于昇腾云的 DeepSeekR1&V3 推理服务! |
Z stark(云轴科技) |
首发!ZStack 智塔支持 DeepSeekV3/R1/JanusPro,多种国产 CPU/GPU 可私有化部署 |
百度智能云千帆 |
百度智能云千帆全面支持 DeepSeek-R1/V3 调用,价格超低 |
超算互联网 |
超算互联网上线 DeepSeek 系列模型,提供超智融合算力支持 |
华为(昇腾社区) |
昇腾蛇年开工送大礼,DeepSeek 系列新模型正式上线昇腾社区 |
路晨x华为昇腾 |
路晨x华为昇腾,携手推出基于国产算力的 DeepSeekR1 系列推理 API 及云分发服务 |
青云科技 |
限时免费,一键部署!基石智算正式上线 DeepSeek-R1 系列模型 |
京东云 |
一键部署!京东云全面上线 DeepSeek-R1/V3 |
联通云(中国联通) |
“哪吒闹海”!联通云上架 DeepSeek-R1 系列模型! |
移动云(中国移动) |
全版本、全尺寸、全功能!移动云全面上线 DeepSeek |
优刻得 |
优刻得基于国产芯片适配 DeepSeek 全系列模型 |
天翼云 (中国电信) |
国产 AI 生态新突破!“息壤”+ DeepSeek,王炸! |
神州数码 |
3 分钟部署高性能 AI 模型 DeepSeek,神州数码助力企业智能化转型 |
开普云 |
开普云开悟大模型应用软件和端侧一体机全面接入 DeepSeek |
金蝶云苍穹 |
金蝶全面接入 DeepSeek 大模型,助力企业加速 AI 应用! |
并行科技 |
服务器繁忙?并行科技助您 DeepSeek 自由! |
首都在线 |
首都在线云平台上线 DeepSeek-R1 系列模型 |
浪潮云 |
浪潮云率先发布 671B DeepSeek 大模型一体机解决方案 |
北京超算 |
北京超算 x DeepSeek: 双擎爆燃,驱动千亿级 AI 创新风暴 |
灵犀使能(紫光股份) |
紫光股份:灵犀使能平台实现对 DeepSeekV3/R1 模型的纳管和上架 |
中国电子云 |
中国电子云上线 DeepSeek-R1/V3 全量模型开启私有化部署新篇 |
金山云 |
金山云支持 DeepSeek-R1/V3 |
商汤大装置 |
商汤大装置上架 DeepSeek 系列模型,限免体验、服务升级! |
360纳米AI搜索 |
纳米 AI 搜索上线 “DeepSeek-R1” 大模型满血版 |
秘塔AI搜索 |
秘塔 AI 接入满血版 DeepSeek R1 推理模型 |
小艺助手(华为) |
华为小艺助手已接入 DeepSeek,此前华为云宣布上线基于昇腾云服务的 DeepSeek R1/V3 推理服务 |
作家助手(阅文集团) |
行业首家!阅文部署 DeepSeek,“作家助手”升级三大辅助创作功能 |
万兴科技 |
万兴科技:已完成 DeepSeek-R1 大模型适配并落地多产品 |
有道小P |
拥抱 DeepSeek 为代表的推理大模型,网易有道加速 AI 教育落地 |
云学堂 |
云学堂接入 DeepSeek 产品 AI 能力全面升级 |
钉钉 |
钉钉 AI 助理接入 DeepSeek,支持深度思考 |
什么值得买 |
值得买:已接入 DeepSeek 模型产品 |
飞书 x DeepSeek 相关 AI 能力汇总(公开版) |
|
同花顺 |
同花顺问财 2.0 重磅升级:注入 "慢思考" 智慧,打造更理性的投资决策助手 |
天工 AI(昆仑万维) |
昆仑万维旗下天工 AI 正式上线 DeepSeek R1 + 联网搜索 |
星际魅族 |
重磅官宣!Flyme AI OS 已完成 DeepSeek-R1 大模型接入 |
荣耀 |
荣耀已接入 DeepSeek |