Deepseek R1 企业本地部署完全手册

1.9K 00

一、简介

Deepseek R1 是一款支持复杂推理、多模态处理、技术文档生成的高性能通用大语言模型。本手册为技术团队提供完整的本地部署指南，涵盖硬件配置、国产芯片适配、量化方案、异构方案、云端替代方案及完整671B MoE模型的部署方法。

二、本地部署核心配置要求

1. 模型参数与硬件对应表

模型参数 (B)	Windows 配置要求	Mac 配置要求	适用场景
1.5B	- RAM: 4GB- GPU: 集成显卡/现代CPU- 存储：5GB	- 内存: 8GB (M1/M2/M3)- 存储：5GB	简单文本生成、基础代码补全
7B	- RAM: 8-10GB- GPU: GTX 1680 (4-bit 量化)- 存储：8GB	- 内存: 16GB (M2 Pro/M3)- 存储：8GB	中等复杂度问答、代码调试
8B	- RAM: 16GB- GPU: RTX 4080 (16GB VRAM)- 存储：10GB	- 内存: 32GB (M3 Max)- 存储：10GB	中等复杂度推理、文档生成
14B	- RAM: 24GB- GPU: RTX 3090 (24GB VRAM)	- 内存: 32GB (M3 Max)- 存储：20GB	复杂推理、技术文档生成
32B	企业级部署（需多卡并联）	暂不支持	科研计算、大规模数据处理
70B	企业级部署（需多卡并联）	暂不支持	大规模推理、超复杂任务
671B	企业级部署（需多卡并联）	暂不支持	超大规模科研计算、高性能计算

2. 算力需求分析

模型版本	参数 (B)	计算精度	模型大小	VRAM 要求 (GB)	参考 GPU 配置
DeepSeek-R1	671B	FP8	~1,342GB	≥1,342GB	多 GPU 配置（如：NVIDIA A100 80GB * 16）
DeepSeek-R1-Distill-Llama-70B	70B	BF16	43GB	~32.7GB	多 GPU 配置（如：NVIDIA A100 80GB * 2）
DeepSeek-R1-Distill-Qwen-32B	32B	BF16	20GB	~14.9GB	多 GPU 配置（如：NVIDIA RTX 4090 * 4）
DeepSeek-R1-Distill-Qwen-14B	14B	BF16	9GB	~6.5GB	NVIDIA RTX 3080 10GB 或更高
DeepSeek-R1-Distill-Llama-8B	8B	BF16	4.9GB	~3.7GB	NVIDIA RTX 3070 8GB 或更高
DeepSeek-R1-Distill-Qwen-7B	7B	BF16	4.7GB	~3.3GB	NVIDIA RTX 3070 8GB 或更高
DeepSeek-R1-Distill-Qwen-1.5B	1.5B	BF16	1.1GB	~0.7GB	NVIDIA RTX 3060 12GB 或更高

补充说明：

VRAM 要求：表中列出的 VRAM 需求为最低要求，实际部署时建议预留 20%-30% 的额外显存以应对模型加载和运行中的峰值需求。
多 GPU 配置：对于大规模模型（如 32B+），建议使用多 GPU 并联以提升计算效率和稳定性。
计算精度：FP8 和 BF16 为当前主流的高效计算精度，能够在保证模型性能的同时降低显存占用。
适用场景：不同参数规模的模型适用于不同复杂度的任务，用户可根据实际需求选择合适的模型版本。
企业级部署：对于 671B 等超大规模模型，建议使用专业级 GPU 集群（如 NVIDIA A100）进行部署，以满足高性能计算需求。

三、国产芯片与硬件适配方案

1. 国内生态合作伙伴动态

企业	适配内容	性能对标 (vs NVIDIA)
华为昇腾	昇腾 910B 原生支持 R1 全系列，提供端到端推理优化
沐曦 GPU	MXN 系列支持 70B 模型 BF16 推理，显存利用率提升 30%	等效 RTX 3090
海光 DCU	适配 V3/R1 模型，性能对标 NVIDIA A100	等效 A100 (BF16)

2. 国产硬件推荐配置

模型参数	推荐方案	适用场景
1.5B	太初 T100 加速卡	个人开发者原型验证
14B	昆仑芯 K200 集群	企业级复杂任务推理
32B	壁彻算力平台 + 昇腾 910B 集群	科研计算与多模态处理

四、云端部署替代方案

1. 国内云服务商推荐

平台	核心优势	适用场景
硅基流动	官方推荐 API，低延迟，支持多模态模型	企业级高并发推理
腾讯云	一键部署 + 限时免费体验，支持 VPC 私有化	中小规模模型快速上线
PPIO 派欧云	价格仅为 OpenAI 1/20，注册赠 5000 万 tokens	低成本尝鲜与测试

2. 国际接入渠道（需魔法或外企上网环境）

英伟达 NIM：企业级 GPU 集群部署（链接)
Groq：超低延迟推理（链接)

五、Ollama+Unsloth 部署

1. 量化方案与模型选择

量化版本	文件体积	最低内存 + 显存需求	适用场景
DeepSeek-R1-UD-IQ1_M	158GB	≥200GB	消费级硬件（如 Mac Studio）
DeepSeek-R1-Q4_K_M	404 GB	≥500GB	高性能服务器/云 GPU

下载地址：

HuggingFace 模型库
Unsloth AI 官方说明

2. 硬件配置建议

硬件类型	推荐配置	性能表现（短文本生成）
消费级设备	Mac Studio（192GB 统一内存）	10+ token/秒
高性能服务器	4 RTX 4090 (96GB 显存 + 384GB 内存)	7-8 token/秒（混合推理）

3. 部署步骤（Linux 示例）

1. 安装依赖工具：

# 安装 llama.cpp（用于合并分片文件）
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install llama.cpp

2. 下载并合并模型分片：

llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_S.gguf

3. 安装 Ollama：

curl -fsSL https://ollama.com/install.sh | sh

4. 创建 Modelfile：

FROM /path/to/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28  # 每块 RTX 4090 加载 7 层（共 4 卡）
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<|end▁of▁thinking $|>{{{ .Prompt }}}<|end▁of▁thinking|>"

5. 运行模型：

ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile

4. 性能调优与测试

GPU 利用率低：升级高带宽内存（如 DDR5 5600+）。
扩展交换空间：

sudo fallocate -l 100G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

满血 671B 部署命令

VLLM：

vllm serve deepseek-ai/deepseek-r1-671b --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

SGLang：

python3 -m sglang.launch_server --model deepseek-ai/deepseek-r1-671b --trust-remote-code --tp 2

六、注意事项与风险提示

1. 成本警示：

70B 模型：需 3 张以上 80G 显存显卡（如 RTX A6000），单卡用户不可行。
671B 模型：需 8xH100 集群，仅限超算中心部署。

2. 替代方案：

个人用户推荐使用云端 API（如硅基流动），免运维且合规。

3. 国产硬件兼容性：

需使用定制版框架（如昇腾 CANN、沐曦 MXMLLM）。

七、附录：技术支持与资源

华为昇腾：昇腾云服务
沐曦 GPU：免费 API 体验
李锡涵博客：完整部署教程

八、异构 GPUStack 方案

GPUStack 开源项目

https://github.com/gpustack/gpustack/

模型资源测算工具

GGUF Parser（https://github.com/gpustack/gguf-parser-go）用于手动计算显存需求。

GPUStack

DeepSeek 全平台私有部署

Model	Context Size	VRAM Requirement	Recommended GPUs
R1-Distill-Qwen-1.5B (Q4_K_M)	32K	2.86 GiB	RTX 4060 8GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-1.5B (Q8_0)	32K	3.47 GiB	RTX 4060 8GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-1.5B (FP16)	32K	4.82 GiB	RTX 4060 8GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-7B (Q4_K_M)	32K	7.90 GiB	RTX 4070 12GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-7B (Q8_0)	32K	10.83 GiB	RTX 4080 16GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-7B (FP16)	32K	17.01 GiB	RTX 4090 24GB, MacBook Pro M4 Max 36G
R1-Distill-Llama-8B (Q4_K_M)	32K	10.64 GiB	RTX 4080 16GB, MacBook Pro M4 Max 36G
R1-Distill-Llama-8B (Q8_0)	32K	13.77 GiB	RTX 4080 16GB, MacBook Pro M4 Max 36G
R1-Distill-Llama-8B (FP16)	32K	20.32 GiB	RTX 4090 24GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-14B (Q4_K_M)	32K	16.80 GiB	RTX 4090 24GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-14B (Q8_0)	32K	22.69 GiB	RTX 4090 24GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-14B (FP16)	32K	34.91 GiB	RTX 4090 24GB x2, MacBook Pro M4 Max 48G
R1-Distill-Qwen-32B (Q4_K_M)	32K	28.92 GiB	RTX 4080 16GB x2, MacBook Pro M4 Max 48G
R1-Distill-Qwen-32B (Q8_0)	32K	42.50 GiB	RTX 4090 24GB x3, MacBook Pro M4 Max 64G
R1-Distill-Qwen-32B (FP16)	32K	70.43 GiB	RTX 4090 24GB x4, MacBook Pro M4 Max 128G
R1-Distill-Llama-70B (Q4_K_M)	32K	53.41 GiB	RTX 4090 24GB x5, A100 80GB x1, MacBook Pro M4 Max 128G
R1-Distill-Llama-70B (Q8_0)	32K	83.15 GiB	RTX 4090 24GB x5, MacBook Pro M4 Max 128G
R1-Distill-Llama-70B (FP16)	32K	143.83 GiB	A100 80GB x2, Mac Studio M2 Ultra 192G
R1-671B (UD-IQ1_S)	32K	225.27 GiB	A100 80GB x4, Mac Studio M2 Ultra 192G
R1-671B (UD-IQ1_M)	32K	251.99 GiB	A100 80GB x4, Mac Studio M2 Ultra 192G x2
R1-671B (UD-IQ2_XXS)	32K	277.36 GiB	A100 80GB x5, Mac Studio M2 Ultra 192G x2
R1-671B (UD-Q2_K_XL)	32K	305.71 GiB	A100 80GB x5, Mac Studio M2 Ultra 192G x2
R1-671B (Q2_K_XS)	32K	300.73 GiB	A100 80GB x5, Mac Studio M2 Ultra 192G x2
R1-671B (Q2_K/Q2_K_L)	32K	322.14 GiB	A100 80GB x6, Mac Studio M2 Ultra 192G x2
R1-671B (Q3_K_M)	32K	392.06 GiB	A100 80GB x7
R1-671B (Q4_K_M)	32K	471.33 GiB	A100 80GB x8
R1-671B (Q5_K_M)	32K	537.31 GiB	A100 80GB x9
R1-671B (Q6_K)	32K	607.42 GiB	A100 80GB x11
R1-671B (Q8_0)	32K	758.54 GiB	A100 80GB x13
R1-671B (FP8)	32K	805.2 GiB	H200 141GB x8

结语

Deepseek R1 的本地化部署需要极高的硬件投入和技术门槛，个人用户务必谨慎，企业用户应充分评估需求与成本。通过国产化适配与云端服务，可以显著降低风险并提升效率。技术无止境，理性规划方能降本增效！

全球企业个人渠道附表

秘塔搜索
360纳米AI搜索
硅基流动
字节跳动火山引擎
百度云千帆
英伟达NIM
Groq
Fireworks
Chutes
Github
POE
Cursor
Monica
Lambda
Cerebras
Perplexity
阿里巴巴云百炼

为需要魔法或外企上网环境

芯片企业支持附表

表1：支持 DeepSeek-R1 的云厂商

日期	名称/网址	发布相关信息
1月 28日	无问芯穹	异构云的绝妙组合
1月 28日	PPIO派欧云	重磅！DeepSeek-R1上线PPIO派欧算力云
2月1 日	硅基流动 x 华为	首发!硅基流动x华为云联合推出基于昇腾云的DeepSeekR1&V3推理服务！
2月2 日	Z stark(云轴科技)	首发!ZStack智塔支持DeepSeekV3/R1/JanusPro,多种国产CPU/GPU可私有化部署
2月3 日	百度智能云千帆	百度智能云千帆全面支持DeepSeek-R1/V3调用，价格超低
2月3 日	超算互联网	超算互联网上线DeepSeek系列模型，提供超智融合算力支持
2月4 日	华为(昇腾社区)	昇腾蛇年开工送大礼，DeepSeek系列新模型正式上线昇腾社区
2月4 日	路晨x华为昇腾	路晨x华为昇腾，携手推出基于国产算力的DeepSeekR1系列推理API及云镜像服务
2月4 日	青云科技	限时免费，一键部署!基石智算正式上线DeepSeek-R1系列模型
2月4 日	天数智芯	一天适配！天数智芯联合GiteeAi正式上线DeepseekR1模型服务
2月4 日	摩尔线程	致敬Deepseek：以国产GPU为基，燎原中国Al生态之火
2月4 日	海光信息	DeepSeekV3和R1，培训完成海光DCU适配并正式上线
2月5 日	沐曦	DeepSeek-V3满血版在国产沐曦GPU首发体验上线
2月5 日	海光信息	海都昂DcCU陈工适配DeepSeek-Janus-pro多模态大模型
2月5 日	京东云	一键部署!京东云全面上线DeepSeek-R1/V3
2月5 日	壁仞科技	DeepSeekR1在壁仞国产Ai算力平台发布，全系列模型一站式赋能开发者
2月5 日	联通云(中国联通)	“哪吒闹海”！联通云上架DeepSeek-R1系列模型！
2月5 日	移动云(中国移动)	全版本、全尺寸、全功能!移动云全面上线DeepSeek
2月5 日	优刻得	优刻得基于国产芯片适配DeepSeek全系列模型
2月5 日	太初元碁	基于太初T100加速卡2小时适配DeepSeek-R1系列模型，一键体验，免费API服务
2月5 日	云天励飞	DeepEdge10已完成DeepSeek-R1系列模型适配
2月6 日	天翼云(中国电信)	国产Al生态新突破！“息壤”+DeepSeek,王炸！
2月6 日	燧原科技	原科技实现全国各地智算中心DeepSeek的全量推理服务部署
2月6 日	昆仑芯	国产Al卡Deepseek训练推理全版本适配，性能卓越，一键部署等你来
2月7 日	浪潮云	浪潮云率先发布671BDeepSeek大模型一体机解决方案
2月7 日	北京超算	北京超算xDeepSeek:双擎爆燃，驱动千亿级Al创新风暴
2月8 日	中国电子云	中国电子云上线DeepSeek-R1/V3全量模型开启私有化部署新篇
2月8 日	金山云	金山云支持DeepSeek-R1/V3
2月8 日	商汤大装置	商汤大装置上架DeepSeek系列模型，限免体验、服务升级！

表2：支持 DeepSeek-R1 的企业

日期	名称/网址	发布相关信息
1月 30 日	360纳米AI搜索	纳米AI搜索上线“DeepSeek-R1"大模型满血版
2月 3日	秘塔AI搜索	秘塔AI接入满血版DeepSeekR1推理模型
2月 5日	小艺助手(华为)	华为小艺助手已接入DeepSeek,此前华为云宣布上线基于昇腾云服务的DeepSeekR1/V3推理服务
2月 5日	作家助手(阅文集团)	行业首家!阅文部署DeepSeek,“作家助手”升级三大辅助创作功能
2月 5日	万兴科技	万兴科技：已完成DeepSeek-R1大模型适配并落地多产品
2月 6日	有道小P	拥抱DeepSeek为代表的推理大模型，网易有道加速AI教育落地
2月 6日	云学堂	云学堂接入DeepSeek产品AI能力全面升级
2月 7日	钉钉	钉钉AI助理接入DeepSeek,支持深度思考
2月 7日	什么值得买	值得买：已接入DeepSeek模型产品
2月 7日	同花顺	同花顺问财2.0重磅升级：注入"慢思考"智慧，打造更理性的投资决策助手
2月 8日	天工AI(昆仑万维)	昆仑万维旗下天工AI正式上线DeepSeekR1+联网搜索
2月 8日	星际魅族	重磅官宣！FlymeAIOS已完成DeepSeek-R1大模型接入
2月 8日	荣耀	荣耀已接入DeepSeek

表3：支持 DeepSeek-R1 的企业汇总

名称/网址	发布相关信息
DeepSeek	DeepSeek-R1发布，性能对标 OpenAI o1 正式版
无问芯穹	无问芯穹 Infini-Al 异构云现已上架 DeepSeek-R1-Distill,国产模型与异构云的绝妙组合
PPIO派欧云	重磅!DeepSeek-R1上线 PPIO 派欧算力云
硅基流动华为	首发!硅基流动x华为云联合推出基于昇腾云的 DeepSeekR1&V3 推理服务！
Z stark(云轴科技)	首发!ZStack 智塔支持 DeepSeekV3/R1/JanusPro,多种国产 CPU/GPU 可私有化部署
百度智能云千帆	百度智能云千帆全面支持 DeepSeek-R1/V3 调用，价格超低
超算互联网	超算互联网上线 DeepSeek 系列模型，提供超智融合算力支持
华为（昇腾社区)	昇腾蛇年开工送大礼，DeepSeek 系列新模型正式上线昇腾社区
路晨x华为昇腾	路晨x华为昇腾，携手推出基于国产算力的 DeepSeekR1 系列推理 API 及云分发服务
青云科技	限时免费，一键部署！基石智算正式上线 DeepSeek-R1 系列模型
京东云	一键部署!京东云全面上线 DeepSeek-R1/V3
联通云（中国联通)	“哪吒闹海”！联通云上架 DeepSeek-R1 系列模型！
移动云（中国移动)	全版本、全尺寸、全功能!移动云全面上线 DeepSeek
优刻得	优刻得基于国产芯片适配 DeepSeek 全系列模型
天翼云 (中国电信)	国产 AI 生态新突破！“息壤”+ DeepSeek,王炸！
神州数码	3 分钟部署高性能 AI 模型 DeepSeek,神州数码助力企业智能化转型
开普云	开普云开悟大模型应用软件和端侧一体机全面接入 DeepSeek
金蝶云苍穹	金蝶全面接入 DeepSeek 大模型，助力企业加速 AI 应用！
并行科技	服务器繁忙?并行科技助您 DeepSeek 自由！
首都在线	首都在线云平台上线 DeepSeek-R1 系列模型
浪潮云	浪潮云率先发布 671B DeepSeek 大模型一体机解决方案
北京超算	北京超算 x DeepSeek: 双擎爆燃，驱动千亿级 AI 创新风暴
灵犀使能(紫光股份)	紫光股份：灵犀使能平台实现对 DeepSeekV3/R1 模型的纳管和上架
中国电子云	中国电子云上线 DeepSeek-R1/V3 全量模型开启私有化部署新篇
金山云	金山云支持 DeepSeek-R1/V3
商汤大装置	商汤大装置上架 DeepSeek 系列模型，限免体验、服务升级!
360纳米AI搜索	纳米 AI 搜索上线 “DeepSeek-R1” 大模型满血版
秘塔AI搜索	秘塔 AI 接入满血版 DeepSeek R1 推理模型
小艺助手(华为)	华为小艺助手已接入 DeepSeek,此前华为云宣布上线基于昇腾云服务的 DeepSeek R1/V3 推理服务
作家助手(阅文集团)	行业首家!阅文部署 DeepSeek，“作家助手”升级三大辅助创作功能
万兴科技	万兴科技：已完成 DeepSeek-R1 大模型适配并落地多产品
有道小P	拥抱 DeepSeek 为代表的推理大模型，网易有道加速 AI 教育落地
云学堂	云学堂接入 DeepSeek 产品 AI 能力全面升级
钉钉	钉钉 AI 助理接入 DeepSeek,支持深度思考
什么值得买	值得买：已接入 DeepSeek 模型产品
飞书 x DeepSeek 相关 AI 能力汇总（公开版）
同花顺	同花顺问财 2.0 重磅升级：注入 "慢思考" 智慧，打造更理性的投资决策助手
天工 AI（昆仑万维)	昆仑万维旗下天工 AI 正式上线 DeepSeek R1 + 联网搜索
星际魅族	重磅官宣！Flyme AI OS 已完成 DeepSeek-R1 大模型接入
荣耀	荣耀已接入 DeepSeek