AI个人学习
和实操指南
资源推荐1

Deepseek R1 企业本地部署完全手册

一、简介

Deepseek R1 是一款支持复杂推理、多模态处理、技术文档生成的高性能通用大语言模型。本手册为技术团队提供完整的本地部署指南,涵盖硬件配置、国产芯片适配、量化方案、异构方案、云端替代方案及完整671B MoE模型的部署方法。

二、本地部署核心配置要求

1. 模型参数与硬件对应表

模型参数 (B) Windows 配置要求 Mac 配置要求 适用场景
1.5B - RAM: 4GB- GPU: 集成显卡/现代CPU- 存储:5GB - 内存: 8GB (M1/M2/M3)- 存储:5GB 简单文本生成、基础代码补全
7B - RAM: 8-10GB- GPU: GTX 1680 (4-bit 量化)- 存储:8GB - 内存: 16GB (M2 Pro/M3)- 存储:8GB 中等复杂度问答、代码调试
8B - RAM: 16GB- GPU: RTX 4080 (16GB VRAM)- 存储:10GB - 内存: 32GB (M3 Max)- 存储:10GB 中等复杂度推理、文档生成
14B - RAM: 24GB- GPU: RTX 3090 (24GB VRAM) - 内存: 32GB (M3 Max)- 存储:20GB 复杂推理、技术文档生成
32B 企业级部署(需多卡并联) 暂不支持 科研计算、大规模数据处理
70B 企业级部署(需多卡并联) 暂不支持 大规模推理、超复杂任务
671B 企业级部署(需多卡并联) 暂不支持 超大规模科研计算、高性能计算

2. 算力需求分析

模型版本 参数 (B) 计算精度 模型大小 VRAM 要求 (GB) 参考 GPU 配置
DeepSeek-R1 671B FP8 ~1,342GB ≥1,342GB 多 GPU 配置(如:NVIDIA A100 80GB * 16)
DeepSeek-R1-Distill-Llama-70B 70B BF16 43GB ~32.7GB 多 GPU 配置(如:NVIDIA A100 80GB * 2)
DeepSeek-R1-Distill-Qwen-32B 32B BF16 20GB ~14.9GB 多 GPU 配置(如:NVIDIA RTX 4090 * 4)
DeepSeek-R1-Distill-Qwen-14B 14B BF16 9GB ~6.5GB NVIDIA RTX 3080 10GB 或更高
DeepSeek-R1-Distill-Llama-8B 8B BF16 4.9GB ~3.7GB NVIDIA RTX 3070 8GB 或更高
DeepSeek-R1-Distill-Qwen-7B 7B BF16 4.7GB ~3.3GB NVIDIA RTX 3070 8GB 或更高
DeepSeek-R1-Distill-Qwen-1.5B 1.5B BF16 1.1GB ~0.7GB NVIDIA RTX 3060 12GB 或更高

Deepseek R1 企业本地部署完全手册-1

补充说明:

  1. VRAM 要求:表中列出的 VRAM 需求为最低要求,实际部署时建议预留 20%-30% 的额外显存以应对模型加载和运行中的峰值需求。
  2. 多 GPU 配置:对于大规模模型(如 32B+),建议使用多 GPU 并联以提升计算效率和稳定性。
  3. 计算精度:FP8 和 BF16 为当前主流的高效计算精度,能够在保证模型性能的同时降低显存占用。
  4. 适用场景:不同参数规模的模型适用于不同复杂度的任务,用户可根据实际需求选择合适的模型版本。
  5. 企业级部署:对于 671B 等超大规模模型,建议使用专业级 GPU 集群(如 NVIDIA A100)进行部署,以满足高性能计算需求。

三、国产芯片与硬件适配方案

1. 国内生态合作伙伴动态

企业 适配内容 性能对标 (vs NVIDIA)
华为昇腾 昇腾 910B 原生支持 R1 全系列,提供端到端推理优化
沐曦 GPU MXN 系列支持 70B 模型 BF16 推理,显存利用率提升 30% 等效 RTX 3090
海光 DCU 适配 V3/R1 模型,性能对标 NVIDIA A100 等效 A100 (BF16)

2. 国产硬件推荐配置

模型参数 推荐方案 适用场景
1.5B 太初 T100 加速卡 个人开发者原型验证
14B 昆仑芯 K200 集群 企业级复杂任务推理
32B 壁彻算力平台 + 昇腾 910B 集群 科研计算与多模态处理

四、云端部署替代方案

1. 国内云服务商推荐

平台 核心优势 适用场景
硅基流动 官方推荐 API,低延迟,支持多模态模型 企业级高并发推理
腾讯云 一键部署 + 限时免费体验,支持 VPC 私有化 中小规模模型快速上线
PPIO 派欧云 价格仅为 OpenAI 1/20,注册赠 5000 万 tokens 低成本尝鲜与测试

2. 国际接入渠道(需魔法或外企上网环境)

  • 英伟达 NIM:企业级 GPU 集群部署(链接)
  • Groq:超低延迟推理(链接)

五、Ollama+Unsloth 部署

1. 量化方案与模型选择

量化版本 文件体积 最低内存 + 显存需求 适用场景
DeepSeek-R1-UD-IQ1_M 158GB ≥200GB 消费级硬件(如 Mac Studio)
DeepSeek-R1-Q4_K_M 404 GB ≥500GB 高性能服务器/云 GPU

下载地址:

  • HuggingFace 模型库
  • Unsloth AI 官方说明

2. 硬件配置建议

硬件类型 推荐配置 性能表现(短文本生成)
消费级设备 Mac Studio(192GB 统一内存) 10+ token/秒
高性能服务器 4 RTX 4090 (96GB 显存 + 384GB 内存) 7-8 token/秒(混合推理)

3. 部署步骤(Linux 示例)

1. 安装依赖工具:

# 安装 llama.cpp(用于合并分片文件)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install llama.cpp

2. 下载并合并模型分片:

llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_S.gguf

3. 安装 Ollama:

curl -fsSL https://ollama.com/install.sh | sh

4. 创建 Modelfile:

FROM /path/to/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28  # 每块 RTX 4090 加载 7 层(共 4 卡)
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<|end▁of▁thinking $|>{{{ .Prompt }}}<|end▁of▁thinking|>"

5. 运行模型:

ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile

4. 性能调优与测试

  • GPU 利用率低:升级高带宽内存(如 DDR5 5600+)。
  • 扩展交换空间
sudo fallocate -l 100G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

满血 671B 部署命令

  • VLLM
vllm serve deepseek-ai/deepseek-r1-671b --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
  • SGLang
python3 -m sglang.launch_server --model deepseek-ai/deepseek-r1-671b --trust-remote-code --tp 2

六、注意事项与风险提示

1. 成本警示:

  • 70B 模型:需 3 张以上 80G 显存显卡(如 RTX A6000),单卡用户不可行。
  • 671B 模型:需 8xH100 集群,仅限超算中心部署。

2. 替代方案:

  • 个人用户推荐使用云端 API(如硅基流动),免运维且合规。

3. 国产硬件兼容性:

  • 需使用定制版框架(如昇腾 CANN、沐曦 MXMLLM)。

七、附录:技术支持与资源

  • 华为昇腾:昇腾云服务
  • 沐曦 GPU:免费 API 体验
  • 李锡涵博客:完整部署教程

八、异构 GPUStack 方案

GPUStack 开源项目

https://github.com/gpustack/gpustack/

模型资源测算工具

  • GGUF Parser(https://github.com/gpustack/gguf-parser-go)用于手动计算显存需求。

GPUStack

DeepSeek 全平台私有部署

Model Context Size VRAM Requirement Recommended GPUs
R1-Distill-Qwen-1.5B (Q4_K_M) 32K 2.86 GiB RTX 4060 8GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-1.5B (Q8_0) 32K 3.47 GiB RTX 4060 8GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-1.5B (FP16) 32K 4.82 GiB RTX 4060 8GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-7B (Q4_K_M) 32K 7.90 GiB RTX 4070 12GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-7B (Q8_0) 32K 10.83 GiB RTX 4080 16GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-7B (FP16) 32K 17.01 GiB RTX 4090 24GB, MacBook Pro M4 Max 36G
R1-Distill-Llama-8B (Q4_K_M) 32K 10.64 GiB RTX 4080 16GB, MacBook Pro M4 Max 36G
R1-Distill-Llama-8B (Q8_0) 32K 13.77 GiB RTX 4080 16GB, MacBook Pro M4 Max 36G
R1-Distill-Llama-8B (FP16) 32K 20.32 GiB RTX 4090 24GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-14B (Q4_K_M) 32K 16.80 GiB RTX 4090 24GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-14B (Q8_0) 32K 22.69 GiB RTX 4090 24GB, MacBook Pro M4 Max 36G
R1-Distill-Qwen-14B (FP16) 32K 34.91 GiB RTX 4090 24GB x2, MacBook Pro M4 Max 48G
R1-Distill-Qwen-32B (Q4_K_M) 32K 28.92 GiB RTX 4080 16GB x2, MacBook Pro M4 Max 48G
R1-Distill-Qwen-32B (Q8_0) 32K 42.50 GiB RTX 4090 24GB x3, MacBook Pro M4 Max 64G
R1-Distill-Qwen-32B (FP16) 32K 70.43 GiB RTX 4090 24GB x4, MacBook Pro M4 Max 128G
R1-Distill-Llama-70B (Q4_K_M) 32K 53.41 GiB RTX 4090 24GB x5, A100 80GB x1, MacBook Pro M4 Max 128G
R1-Distill-Llama-70B (Q8_0) 32K 83.15 GiB RTX 4090 24GB x5, MacBook Pro M4 Max 128G
R1-Distill-Llama-70B (FP16) 32K 143.83 GiB A100 80GB x2, Mac Studio M2 Ultra 192G
R1-671B (UD-IQ1_S) 32K 225.27 GiB A100 80GB x4, Mac Studio M2 Ultra 192G
R1-671B (UD-IQ1_M) 32K 251.99 GiB A100 80GB x4, Mac Studio M2 Ultra 192G x2
R1-671B (UD-IQ2_XXS) 32K 277.36 GiB A100 80GB x5, Mac Studio M2 Ultra 192G x2
R1-671B (UD-Q2_K_XL) 32K 305.71 GiB A100 80GB x5, Mac Studio M2 Ultra 192G x2
R1-671B (Q2_K_XS) 32K 300.73 GiB A100 80GB x5, Mac Studio M2 Ultra 192G x2
R1-671B (Q2_K/Q2_K_L) 32K 322.14 GiB A100 80GB x6, Mac Studio M2 Ultra 192G x2
R1-671B (Q3_K_M) 32K 392.06 GiB A100 80GB x7
R1-671B (Q4_K_M) 32K 471.33 GiB A100 80GB x8
R1-671B (Q5_K_M) 32K 537.31 GiB A100 80GB x9
R1-671B (Q6_K) 32K 607.42 GiB A100 80GB x11
R1-671B (Q8_0) 32K 758.54 GiB A100 80GB x13
R1-671B (FP8) 32K 805.2 GiB H200 141GB x8

结语

Deepseek R1 的本地化部署需要极高的硬件投入和技术门槛,个人用户务必谨慎,企业用户应充分评估需求与成本。通过国产化适配与云端服务,可以显著降低风险并提升效率。技术无止境,理性规划方能降本增效!

全球企业个人渠道附表

  1. 秘塔搜索
  2. 360纳米AI搜索
  3. 硅基流动
  4. 字节跳动火山引擎
  5. 百度云千帆
  6. 英伟达NIM
  7. Groq
  8. Fireworks
  9. Chutes
  10. Github
  11. POE
  12. Cursor
  13. Monica
  14. Lambda
  15. Cerebras
  16. Perplexity
  17. 阿里巴巴云百炼

为需要魔法或外企上网环境

芯片企业支持附表

表1:支持 DeepSeek-R1 的云厂商

日期 名称/网址 发布相关信息
1月 28日 无问芯穹 异构云的绝妙组合
1月 28日 PPIO派欧云 重磅!DeepSeek-R1上线PPIO派欧算力云
2月1 日 硅基流动 x 华为 首发!硅基流动x华为云联合推出基于昇腾云的DeepSeekR1&V3推理服务!
2月2 日 Z stark(云轴科技) 首发!ZStack智塔支持DeepSeekV3/R1/JanusPro,多种国产CPU/GPU可私有化部署
2月3 日 百度智能云千帆 百度智能云千帆全面支持DeepSeek-R1/V3调用,价格超低
2月3 日 超算互联网 超算互联网上线DeepSeek系列模型,提供超智融合算力支持
2月4 日 华为(昇腾社区) 昇腾蛇年开工送大礼,DeepSeek系列新模型正式上线昇腾社区
2月4 日 路晨x华为昇腾 路晨x华为昇腾,携手推出基于国产算力的DeepSeekR1系列推理API及云镜像服务
2月4 日 青云科技 限时免费,一键部署!基石智算正式上线DeepSeek-R1系列模型
2月4 日 天数智芯 一天适配!天数智芯联合GiteeAi正式上线DeepseekR1模型服务
2月4 日 摩尔线程 致敬Deepseek:以国产GPU为基,燎原中国Al生态之火
2月4 日 海光信息 DeepSeekV3和R1,培训完成海光DCU适配并正式上线
2月5 日 沐曦 DeepSeek-V3满血版在国产沐曦GPU首发体验上线
2月5 日 海光信息 海都昂DcCU陈工适配DeepSeek-Janus-pro多模态大模型
2月5 日 京东云 一键部署!京东云全面上线DeepSeek-R1/V3
2月5 日 壁仞科技 DeepSeekR1在壁仞国产Ai算力平台发布,全系列模型一站式赋能开发者
2月5 日 联通云(中国联通) “哪吒闹海”!联通云上架DeepSeek-R1系列模型!
2月5 日 移动云(中国移动) 全版本、全尺寸、全功能!移动云全面上线DeepSeek
2月5 日 优刻得 优刻得基于国产芯片适配DeepSeek全系列模型
2月5 日 太初元碁 基于太初T100加速卡2小时适配DeepSeek-R1系列模型,一键体验,免费API服务
2月5 日 云天励飞 DeepEdge10已完成DeepSeek-R1系列模型适配
2月6 日 天翼云(中国电信) 国产Al生态新突破!“息壤”+DeepSeek,王炸!
2月6 日 燧原科技 原科技实现全国各地智算中心DeepSeek的全量推理服务部署
2月6 日 昆仑芯 国产Al卡Deepseek训练推理全版本适配,性能卓越,一键部署等你来
2月7 日 浪潮云 浪潮云率先发布671BDeepSeek大模型一体机解决方案
2月7 日 北京超算 北京超算xDeepSeek:双擎爆燃,驱动千亿级Al创新风暴
2月8 日 中国电子云 中国电子云上线DeepSeek-R1/V3全量模型开启私有化部署新篇
2月8 日 金山云 金山云支持DeepSeek-R1/V3
2月8 日 商汤大装置 商汤大装置上架DeepSeek系列模型,限免体验、服务升级!

表2:支持 DeepSeek-R1 的企业

日期 名称/网址 发布相关信息
1月 30 日 360纳米AI搜索 纳米AI搜索上线“DeepSeek-R1"大模型满血版
2月 3日 秘塔AI搜索 秘塔AI接入满血版DeepSeekR1推理模型
2月 5日 小艺助手(华为) 华为小艺助手已接入DeepSeek,此前华为云宣布上线基于昇腾云服务的DeepSeekR1/V3推理服务
2月 5日 作家助手(阅文集团) 行业首家!阅文部署DeepSeek,“作家助手”升级三大辅助创作功能
2月 5日 万兴科技 万兴科技:已完成DeepSeek-R1大模型适配并落地多产品
2月 6日 有道小P 拥抱DeepSeek为代表的推理大模型,网易有道加速AI教育落地
2月 6日 云学堂 云学堂接入DeepSeek产品AI能力全面升级
2月 7日 钉钉 钉钉AI助理接入DeepSeek,支持深度思考
2月 7日 什么值得买 值得买:已接入DeepSeek模型产品
2月 7日 同花顺 同花顺问财2.0重磅升级:注入"慢思考"智慧,打造更理性的投资决策助手
2月 8日 天工AI(昆仑万维) 昆仑万维旗下天工AI正式上线DeepSeekR1+联网搜索
2月 8日 星际魅族 重磅官宣!FlymeAIOS已完成DeepSeek-R1大模型接入
2月 8日 荣耀 荣耀已接入DeepSeek

表3:支持 DeepSeek-R1 的企业汇总

名称/网址 发布相关信息
DeepSeek DeepSeek-R1发布,性能对标 OpenAI o1 正式版
无问芯穹 无问芯穹 Infini-Al 异构云现已上架 DeepSeek-R1-Distill,国产模型与异构云的绝妙组合
PPIO派欧云 重磅!DeepSeek-R1上线 PPIO 派欧算力云
硅基流动华为 首发!硅基流动x华为云联合推出基于昇腾云的 DeepSeekR1&V3 推理服务!
Z stark(云轴科技) 首发!ZStack 智塔支持 DeepSeekV3/R1/JanusPro,多种国产 CPU/GPU 可私有化部署
百度智能云千帆 百度智能云千帆全面支持 DeepSeek-R1/V3 调用,价格超低
超算互联网 超算互联网上线 DeepSeek 系列模型,提供超智融合算力支持
华为(昇腾社区) 昇腾蛇年开工送大礼,DeepSeek 系列新模型正式上线昇腾社区
路晨x华为昇腾 路晨x华为昇腾,携手推出基于国产算力的 DeepSeekR1 系列推理 API 及云分发服务
青云科技 限时免费,一键部署!基石智算正式上线 DeepSeek-R1 系列模型
京东云 一键部署!京东云全面上线 DeepSeek-R1/V3
联通云(中国联通) “哪吒闹海”!联通云上架 DeepSeek-R1 系列模型!
移动云(中国移动) 全版本、全尺寸、全功能!移动云全面上线 DeepSeek
优刻得 优刻得基于国产芯片适配 DeepSeek 全系列模型
天翼云 (中国电信) 国产 AI 生态新突破!“息壤”+ DeepSeek,王炸!
神州数码 3 分钟部署高性能 AI 模型 DeepSeek,神州数码助力企业智能化转型
开普云 开普云开悟大模型应用软件和端侧一体机全面接入 DeepSeek
金蝶云苍穹 金蝶全面接入 DeepSeek 大模型,助力企业加速 AI 应用!
并行科技 服务器繁忙?并行科技助您 DeepSeek 自由!
首都在线 首都在线云平台上线 DeepSeek-R1 系列模型
浪潮云 浪潮云率先发布 671B DeepSeek 大模型一体机解决方案
北京超算 北京超算 x DeepSeek: 双擎爆燃,驱动千亿级 AI 创新风暴
灵犀使能(紫光股份) 紫光股份:灵犀使能平台实现对 DeepSeekV3/R1 模型的纳管和上架
中国电子云 中国电子云上线 DeepSeek-R1/V3 全量模型开启私有化部署新篇
金山云 金山云支持 DeepSeek-R1/V3
商汤大装置 商汤大装置上架 DeepSeek 系列模型,限免体验、服务升级!
360纳米AI搜索 纳米 AI 搜索上线 “DeepSeek-R1” 大模型满血版
秘塔AI搜索 秘塔 AI 接入满血版 DeepSeek R1 推理模型
小艺助手(华为) 华为小艺助手已接入 DeepSeek,此前华为云宣布上线基于昇腾云服务的 DeepSeek R1/V3 推理服务
作家助手(阅文集团) 行业首家!阅文部署 DeepSeek,“作家助手”升级三大辅助创作功能
万兴科技 万兴科技:已完成 DeepSeek-R1 大模型适配并落地多产品
有道小P 拥抱 DeepSeek 为代表的推理大模型,网易有道加速 AI 教育落地
云学堂 云学堂接入 DeepSeek 产品 AI 能力全面升级
钉钉 钉钉 AI 助理接入 DeepSeek,支持深度思考
什么值得买 值得买:已接入 DeepSeek 模型产品
飞书 x DeepSeek 相关 AI 能力汇总(公开版)
同花顺 同花顺问财 2.0 重磅升级:注入 "慢思考" 智慧,打造更理性的投资决策助手
天工 AI(昆仑万维) 昆仑万维旗下天工 AI 正式上线 DeepSeek R1 + 联网搜索
星际魅族 重磅官宣!Flyme AI OS 已完成 DeepSeek-R1 大模型接入
荣耀 荣耀已接入 DeepSeek
内容1
未经允许不得转载:首席AI分享圈 » Deepseek R1 企业本地部署完全手册

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文