综合介绍
Open-LLM-VTuber 是一个开源项目,允许用户通过语音和文字与大型语言模型(LLM)互动,并结合Live2D技术呈现动态虚拟角色。它支持Windows、macOS和Linux,可完全离线运行,兼具网页版和桌面客户端两种模式。用户可将其作为虚拟女友、宠物或桌面助手,通过自定义外观、性格和声音打造个性化AI伴侣。项目最初旨在复刻闭源AI虚拟主播“neuro-sama”,现已发展为功能丰富的平台,支持多种语言模型、语音识别、文本转语音以及视觉感知功能。当前版本经过v1.0.0重构,正处于活跃开发中,未来将新增更多特性。
功能列表
- 语音交互:支持免提语音对话,用户可随时打断AI,实现流畅沟通。
- Live2D动画:内置动态头像,根据对话内容生成表情和动作。
- 跨平台支持:兼容Windows、macOS和Linux,支持NVIDIA/非NVIDIA GPU及CPU运行。
- 离线运行:所有功能可无网络运行,确保隐私安全。
- 桌面宠物模式:支持透明背景、全局置顶和鼠标穿透,角色可拖动到屏幕任意位置。
- 视觉感知:通过摄像头或屏幕内容识别,与AI进行视频互动。
- 多模型支持:兼容Ollama、OpenAI、Claude、Mistral等多种LLM,以及sherpa-onnx、Whisper等语音模块。
- 角色定制:可导入Live2D模型,调整性格和声音。
- 触摸反馈:点击或拖动角色触发互动响应。
- 聊天记录保存:支持切换历史对话,保留互动内容。
使用帮助
安装流程
Open-LLM-VTuber 需要本地部署,以下是详细步骤:
1. 前置条件
- 硬件:支持Windows、macOS或Linux的电脑,推荐NVIDIA GPU(无GPU也可运行)。
- 软件:安装Git、Python 3.10+ 和 uv(推荐的包管理工具)。
- 网络:初次部署需联网下载依赖,建议中国用户使用代理加速。
2. 下载代码
- 通过终端克隆项目:
git clone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber --recursive cd Open-LLM-VTuber
- 或从 GitHub Release 下载最新 ZIP 文件并解压。
- 注意:若未使用
--recursive
,需运行git submodule update --init
获取前端子模块。
3. 安装依赖
- 安装 uv:
- Windows(PowerShell):
irm https://astral.sh/uv/install.ps1 | iex
- macOS/Linux:
curl -LsSf https://astral.sh/uv/install.sh | sh
- Windows(PowerShell):
- 在项目目录运行:
uv sync
自动安装 FastAPI、onnxruntime 等依赖。
4. 配置环境
- 首次运行生成配置文件:
uv run run_server.py
- 编辑生成的
conf.yaml
,配置以下内容:- LLM:选择模型(如 Ollama 的 llama3 或 OpenAI API,需填入密钥)。
- ASR:语音识别模块(如 sherpa-onnx)。
- TTS:文本转语音模块(如 Edge TTS)。
- 示例:
llm: provider: ollama model: llama3 asr: provider: sherpa-onnx tts: provider: edge-tts
5. 启动服务
- 运行:
uv run run_server.py
- 访问
http://localhost:8000
使用网页版,或下载桌面客户端运行。
6. 桌面客户端(可选)
- 从 GitHub Release 下载
open-llm-vtuber-electron
(Windows 用 .exe,macOS 用 .dmg)。 - 启动客户端,确保后端服务运行,即可体验桌面宠物模式。
7. 更新与卸载
- 更新:v1.0.0 后用
uv run update.py
更新,早期版本需按最新文档重新部署。 - 卸载:删除项目文件夹,检查
MODELSCOPE_CACHE
或HF_HOME
中的模型文件,卸载 uv 等工具。
功能操作流程
语音交互
- 启用语音:在网页或客户端点击“麦克风”图标。
- 对话:直接说话,AI实时响应;按“中断”按钮打断AI。
- 优化:在
conf.yaml
调整 ASR 和 TTS 模块,提升识别和发音效果。
角色定制
- 导入模型:将 .moc3 文件放入
frontend/live2d_models
目录。 - 调整性格:编辑
conf.yaml
的prompt
,如“温柔大姐姐”。 - 声音定制:使用 GPTSoVITS 等工具录制样本,生成独特语音。
桌面宠物模式
- 开启模式:在客户端选择“桌面宠物”,勾选“透明背景”和“置顶”。
- 移动角色:拖动到屏幕任意位置。
- 互动:点击角色触发触摸反馈,查看内心独白或表情变化。
视觉感知
- 激活摄像头:点击“视频聊天”,授权访问。
- 屏幕识别:选择“屏幕感知”,AI可分析屏幕内容。
- 示例:问“屏幕上是什么”,AI会描述画面。
注意事项
- 浏览器:推荐 Chrome,其他浏览器可能影响Live2D显示。
- 性能:GPU加速需正确配置驱动,CPU运行可能较慢。
- 许可:内置Live2D样本模型受单独许可约束,商用需联系Live2D Inc.。