AI Personal Learning
and practical guidance
Beanbag Marscode1

Ollama 安装与使用详细教学

Post was updated on 2025-03-13 03:24, 部分内容具有时效性,如有失效,请留言

之前出了很多期关于 Ollama 安装部署的教程,信息较为零散,这次一步到位整理出完整的面向本地电脑使用 Ollama 的完整教学。教学面向初级使用者避免踩坑,有能力推荐阅读 Ollama 官方说明文档。接下来我会一步步指导安装并使用 Ollama。

Ollama安装与使用-1


 

本地安装大模型为什么选择 Ollama

很多新人和我一样不理解,网上有其他性能更好的大模型部署工具,比如:Inventorying LLM frameworks similar to Ollama: multiple options for locally deploying large models ,最后为什么推荐安装 Ollama ?

首先当然是个人电脑安装简单啦,但其中最重要的一点是,面向单机部署模型性能、参数优化更好,安装不容易出错。举个例子,同配置电脑安装 QwQ-32B 使用 Ollama 可能使用流畅,换成“更强大的” llama.cpp 可能会卡,甚至输出的答案都不对。这背后原因有很多,我也解释不清楚,就不解释了,只需要知道 Ollama 底层就包含 llama.cpp ,因为优化的更好,反而运行起来比 llama.cpp 更稳定。

 

Ollama 可以运行哪类大模型文件

Ollama支持以下两种格式的模型文件,并通过不同的推理引擎进行支持:

  1. GGUF 格式: By llama.cpp 进行推理。
  2. safetensors 格式: By vllm 进行推理。

这意味着:

  • 如果使用 GGUF 格式的模型,Ollama 会调用 llama.cpp 进行高效的 CPU/GPU 推理。
  • 如果使用 safetensors 格式的模型,Ollama 会利用 vllm,通常依赖于 GPU 进行高性能推理。

当然你并不需要关心,仅做了解,其实你安装的绝大多数都是 GGUF 格式的文件。为什么特意强调 GGUF 呢?

GGUF 支持 量化(如 Q4、Q6_K),能够在极低的显存和内存占用下保持较好的推理性能,而 safetensors 通常是完整的 FP16/FP32 模型,体积更大、占用资源更多。可以在这里了解更多:What is Model Quantization: FP32, FP16, INT8, INT4 Data Types ExplainedThe

 

Ollama 最低配置要求

操作系统: Linux:Ubuntu 18.04 或更高版本,macOS:macOS 11 Big Sur 或更高版本

RAM: 8GB 用于运行 3B 模型,16GB 用于运行 7B 模型,32GB 用于运行 13B 模型

磁盘空间: 12GB 用于安装 Ollama 和基本模型,存储模型数据所需的额外空间,具体取决于您使用的模型。C盘建议预留6G空间。

CPU: 建议使用至少 4 核的任何现代 CPU,对于运行 13B 模型,建议使用至少 8 核的 CPU。

GPU(可选): 运行 Ollama 不需要 GPU,但它可以提高性能,尤其是运行较大的模型。如果您有 GPU,可以使用它来加速 定制模型的训练。

 

Install Ollama

进入:https://ollama.com/download

根据电脑环境选择就好,安装十分简单,这里唯一要注意的事项就是网络环境可能导致无法正常安装。

macOS安装:https://ollama.com/download/Ollama-darwin.zip

Windows安装:https://ollama.com/download/OllamaSetup.exe

Linux安装:curl -fsSL https://ollama.com/install.sh | sh

Docker镜像:(请自行在官网学习)

CPU 或者 Nvidia GPU:docker pull ollama/ollama

AMD GPU:docker pull ollama/ollama:rocm

Ollama安装与使用-1

 

安装完成后你会在桌面右下角看到 Ollama 的图标,如果图标中出现绿色提醒,表示需要升级。

Ollama 安装与使用-1

 

Ollama 设置

Ollama 安装十分简单,但大多数设置需要修改“环境变量”,对新人十分不友好,我列出所有变量供需要的朋友参考(不需要记住):

parameters 标识与配置
OLLAMA_MODELS 表示模型文件的存放目录,默认目录为当前用户目录即  C:\Users%username%.ollama\models
Windows system 建议不要放在C盘,可放在其他盘(如 E:\ollama\models)
OLLAMA_HOST 表示ollama 服务监听的网络地址,默认为127.0.0.1
如果想要允许其他电脑访问 Ollama(如局域网中的其他电脑),建议设置成 0.0.0.0
OLLAMA_PORT 表示ollama 服务监听的默认端口,默认为11434
如果端口有冲突,可以修改设置成其他端口(如8080etc.)
OLLAMA_ORIGINS 表示HTTP 客户端的请求来源,使用半角逗号分隔列表
如果本地使用不受限制,可以设置成星号 *
OLLAMA_KEEP_ALIVE 表示大模型加载到内存中后的存活时间,默认为5m即 5 分钟
(如纯数字300 代表 300 秒,0 代表处理请求响应后立即卸载模型,任何负数则表示一直存活)
建议设置成 24h ,即模型在内存中保持 24 小时,提高访问速度
OLLAMA_NUM_PARALLEL 表示请求处理的并发数量,默认为1 (即单并发串行处理请求)
建议按照实际需求进行调整
OLLAMA_MAX_QUEUE 表示请求队列长度,默认值为512
建议按照实际需求进行调整,超过队列长度的请求会被抛弃
OLLAMA_DEBUG 表示输出 Debug 日志,应用研发阶段可以设置成1 (即输出详细日志信息,便于排查问题)
OLLAMA_MAX_LOADED_MODELS 表示最多同时加载到内存中模型的数量,默认为1 (即只能有 1 个模型在内存中)

 

1.修改大模型文件下载目录

在Windows系统中,Ollama下载的模型文件默认存放在用户文件夹下的特定目录中。具体来说,默认路径通常为C:\Users\<用户名>\.ollama\models。这里,<用户名>指的是当前Windows系统的登录用户名。

Ollama安装与使用-1

例如,如果系统登录用户名为yangfan,则模型文件的默认存储路径可能是C:\Users\yangfan\.ollama\models\manifests\registry.ollama.ai。在这个目录下,用户可以找到通过Ollama下载的所有模型文件。

注:较新系统安装路径一般是:C:\Users\<用户名>\AppData\Local\Programs\Ollama

大模型下载动辄几个G,如果你的C盘空间较小,第一步要做的就是修改大模型文件的下载目录。

 

1.找到环境变量的入口

最简单的方法:Win+R 打开运行窗口,输入 sysdm.cpl,回车打开系统属性,选择高级选项卡,点击环境变量。

Ollama 安装与使用-1

其他方法:

1.开始->设置->关于->高级系统设置->系统属性->环境变量。

2.此电脑->右键->属性->高级系统设置->环境变量。

3.开始->控制面板->系统和安全->系统->高级系统设置->系统属性->环境变量。

4.桌面底部搜索框->输入->环境变量

进入后会看到以下界面:

Ollama 安装与使用-1

2.修改环境变量

在系统变量中寻找变量名称OLLAMA_MODELS,没有则点击新建

Ollama 安装与使用-1

Ollama 安装与使用-1

如果已存在OLLAMA_MODELS ,选中后双击鼠标左键,或选中后单击“编辑”

Ollama 安装与使用-1

变量值修改为新的目录,这里我已经提前从C盘修改为磁盘空间较大的E盘。

Ollama 安装与使用-1

保存后,建议从新启动电脑,再使用,更稳妥。

2.修改默认访问地址和端口

在浏览器输入网址:http://127.0.0.1:11434/ ,会看到以下信息,表示正在运行,这里有一些安全风险,需要修改,依然在环境变量中修改。

Ollama 安装与使用-1

 

1.修改OLLAMA_HOST

没有则新增,如果是0.0.0.0允许外网访问,修改为127.0.0.1

Ollama 安装与使用-1

2.修改OLLAMA_PORT

没有则新增,11434修改为任意端口,比如:11331(端口修改范围从1~65535),从1000以后数字开始修改可以避免端口冲突。注意用英文":"

Ollama 安装与使用-1

记得重启电脑,关于Ollama的安全问题,推荐阅读:DeepSeek sets Ollama on fire, is your local deployment safe? Be wary of 'stolen' power!

 

安装大模型

进入网址:https://ollama.com/search

 

Ollama 安装与使用-1

 

选择模型,选择模型尺寸,复制命令

Ollama 安装与使用-1

 

进入命令行工具

Ollama 安装与使用-1

 

粘贴命令即可自动安装

Ollama 安装与使用-1

 

这里正在下载,如果下载速度较慢,考虑换一个开心的上网环境

Ollama 安装与使用-1

 

如果你想下载 Ollama 没有提供的大模型,当然也可以,绝大多数模型都是 huggingface 上的 GGUF 文件,我以一个特殊量化版的 DeepSeek-R1 32B 为例进行安装演示。

 

1. install huggingface quantitative versioning model base command format

Remember the following installation command format

 

ollama run hf.co/{username}:{reponame}

 

2. Selecting the quantization version

List of all quantized versions: https://huggingface.co/unsloth/DeepSeek-R1-Distill-Qwen-32B-GGUF/tree/main

此次安装使用:Q5_K_M

 

3. Splice Installation Command

Deploying Long-Term Availability of DeepSeek-R1 32B Quantization without Local GPU-1

 

{username}=unsloth/DeepSeek-R1-Distill-Qwen-32B-GGUF

{reponame}=Q5_K_M

Splice to get the full install command:ollama run hf.co/unsloth/DeepSeek-R1-Distill-Qwen-32B-GGUF:Q5_K_M

 

4. Execute the installation in Ollama

Execute the installation command

Deploying Long-Term Availability of DeepSeek-R1 32B Quantization without Local GPU-1

You may experience network failures (good luck with that), repeat the install command a few more times...

还是不行?执行以下命令试试,hf.co/部分修改为https://hf-mirror.com/(切换为国内镜像地址),最后拼接的完整安装命令如下:

ollama run https://hf-mirror.com/unsloth/DeepSeek-R1-Distill-Qwen-32B-GGUF:Q5_K_M

此部分完整教程可参考:Private Deployment without Local GPUs DeepSeek-R1 32B

 

Ollama 基础命令

command descriptive
ollama serve 启动 Ollama
ollama create 从 Modelfile 创建模型
ollama show 显示模型信息
ollama run operational model
ollama stop 停止正在运行的模型
ollama pull 从注册表中拉取模型
ollama push 将模型推送到注册表
ollama list 列出所有模型
ollama ps 列出正在运行的模型
ollama cp 复制模型
ollama rm 删除模型
ollama help 显示任意命令的帮助信息
symbolize descriptive
-h, --help 显示 Ollama 的帮助信息
-v, --version 显示版本信息

多行输入命令时,可以使用 """ 进行换行。

Ollama 安装与使用-1

utilization """ 结束换行。

Ollama 安装与使用-1

终止 Ollama 模型推理服务,可以使用 /byeThe

Ollama 安装与使用-1

在本地AI对话工具中使用Ollama

主流本地AI对话工具绝大多数已默认适配 Ollama ,不需要进行任何设置。比如 Page Assist 、OpenwebUI 。

但有些本地AI对话工具需要自己输入API地址,http://127.0.0.1:11434/:(注意端口是否修改)

Ollama 安装与使用-1

有些网页版的AI对话工具当然也支持配置,例如 NextChat :

Ollama 安装与使用-1

如果想让本地电脑运行的 Ollama 完全暴露在外网使用,请自行学习cpolar或ngrok,这已经超出初级使用的范畴。

文章看似很长,其实里面就4个很简单的知识点,学会以后未来使用 Ollama 基本畅通无阻,让我们再次回顾:

1.设置环境变量

2.安装大模型的两种方式

3.记住基础运行、删除模型命令

4.在不同客户端中使用

CDN1
May not be reproduced without permission:Chief AI Sharing Circle " Ollama 安装与使用详细教学

Chief AI Sharing Circle

Chief AI Sharing Circle specializes in AI learning, providing comprehensive AI learning content, AI tools and hands-on guidance. Our goal is to help users master AI technology and explore the unlimited potential of AI together through high-quality content and practical experience sharing. Whether you are an AI beginner or a senior expert, this is the ideal place for you to gain knowledge, improve your skills and realize innovation.

Contact Us
en_USEnglish