综合介绍
HeyGem 是一款专为 Windows 系统设计的完全离线视频合成工具,由 GuijiAI(硅基智能) 团队开发并在 GitHub 上开源。它利用先进的 AI 算法精准克隆用户的外貌和声音,生成逼真的虚拟形象,并支持通过文字或语音驱动这些形象制作个性化视频。工具无需联网,所有操作在本地完成,确保用户隐私安全。HeyGem 支持多语言脚本(包括英语、日语、韩语、中文等八种语言),界面简洁直观,适合无技术背景的用户快速上手,同时提供开放 API,方便开发者扩展功能。几个月前硅基智能开源移动版数字人 DUIX:实时互动的智能数字人,支持多平台一键部署。
HeyGem 官方下载地址:https://heygem.ai/
功能列表
- 精准外貌与声音克隆:通过 AI 技术捕捉面部特征和声线细节,生成高保真的虚拟形象和声音,支持参数调整。
- 文字驱动虚拟形象:输入文本后,工具自动生成自然语音并驱动虚拟形象完成唇形同步和表情动作。
- 语音驱动视频制作:通过用户语音输入,控制虚拟形象的语调和节奏,生成动态视频。
- 全离线运行:无需网络连接,所有数据本地处理,保障隐私安全。
- 多语言支持:支持英语、日语、韩语、中文、法语、德语、阿拉伯语、西班牙语八种语言脚本。
- 高效视频合成:智能优化音视频同步,确保唇形与声音自然匹配。
- 开源 API 接口:提供模型训练和视频合成的 API,开发者可自定义功能。
使用帮助
安装流程
以下安装流程严格遵循官方说明,保留原文和图片地址:
Prerequisites
- 必须有 D 盘:主要用于存储数字形象和项目数据
- 空闲空间要求:大于 30GB
- C 盘:用于存储服务镜像文件
- 空闲空间要求:大于 100GB
- 如果可用空间少于 100GB,安装 Docker 后,可在下图所示位置选择一个空闲空间大于 100GB 的磁盘文件夹:
- 系统要求:
- 当前支持 Windows 10 19042.1526 或更高版本
- 推荐配置:
- CPU:13th Gen Intel Core i5-13400F
- 内存:32GB
- 显卡:RTX-4070
- 确保拥有 NVIDIA 显卡并正确安装驱动
- NVIDIA 驱动下载链接:https://www.nvidia.cn/drivers/lookup/
- NVIDIA 驱动下载链接:https://www.nvidia.cn/drivers/lookup/
Installing Windows Docker
- 使用命令
wsl --list --verbose
检查是否已安装 WSL。下图显示已安装,无需重新安装:
- WSL 安装命令:
wsl --install
- 可能因网络问题失败,请多次尝试
- 安装过程中需设置并记住新的用户名和密码
- WSL 安装命令:
- 使用
wsl --update
更新 WSL:
- 下载 Windows 版 Docker,选择适合你 CPU 架构的安装包。
- 此界面表示安装成功:
- 运行 Docker:
- 首次运行时接受协议并跳过登录:
Installing the Server
使用 Docker 和 docker-compose 安装如下:
docker-compose.yml
文件位于/deploy
目录。- 在
/deploy
目录下执行docker-compose up -d
。 - 耐心等待(约半小时,取决于网速),下载将消耗约 70GB 流量,请确保使用 WiFi。
- 当 Docker 中看到三个服务时,表示成功:
Client
- 构建脚本
npm run build:win
,执行后将在dist
目录生成HeyGem-1.0.0-setup.exe
。 - 双击
HeyGem-1.0.0-setup.exe
进行安装。
Dependencies
- Nodejs 18
- Docker 镜像:
docker pull guiji2025/fun-asr:1.0.1
docker pull guiji2025/fish-speech-ziming:1.0.39
docker pull guiji2025/heygem.ai:0.0.7_sdk_slim
主要功能操作流程
1. 外貌与声音克隆
- 准备素材
- 录制一段清晰语音(10-30 秒,WAV 格式),放入
D:\heygem_data\voice\data
。 - 拍摄一张正面高清照片,放入
D:\heygem_data\face2face
(路径可在docker-compose.yml
中调整)。
- 录制一段清晰语音(10-30 秒,WAV 格式),放入
- 运行克隆功能
- 启动客户端,打开界面后选择“模型训练”。
- 调用 API
http://127.0.0.1:18180/v1/preprocess_and_tran
,输入参数如:{ "format": ".wav", "reference_audio": "D:/heygem_data/voice/data/sample.wav", "lang": "zh" }
- 获取返回结果(如音频路径和文本),保存以备后续使用。
2. 文字驱动虚拟形象
- 输入文本
- 在客户端界面选择“音频合成”,调用 API
http://127.0.0.1:18180/v1/invoke
,输入参数如:{ "speaker": "unique-uuid", "text": "欢迎体验 HeyGem.ai", "format": "wav", "topP": 0.7, "max_new_tokens": 1024, "chunk_length": 100, "repetition_penalty": 1.2, "temperature": 0.7, "need_asr": false, "streaming": false, "is_fixed_seed": 0, "is_norm": 0, "reference_audio": "返回的音频路径", "reference_text": "返回的文本" }
- 在客户端界面选择“音频合成”,调用 API
- 生成视频
- 使用合成接口
http://127.0.0.1:8383/easy/submit
,输入参数如:{ "audio_url": "生成的音频路径", "video_url": "D:/heygem_data/face2face/sample.mp4", "code": "unique-uuid", "chaofen": 0, "watermark_switch": 0, "pn": 1 }
- 查询进度:
http://127.0.0.1:8383/easy/query?code=unique-uuid
。
- 使用合成接口
- 保存结果
- 完成后,视频文件保存在本地指定路径。
3. 语音驱动视频制作
- 录制语音
- 在客户端录制语音,或直接上传 WAV 文件至
D:\heygem_data\voice\data
。
- 在客户端录制语音,或直接上传 WAV 文件至
- 生成视频
- 调用上述音频和视频合成 API,生成带动作的虚拟形象视频。
- 预览与调整
- 通过客户端预览效果,可调整参数后重新生成。
使用技巧
- 素材要求:照片需光线均匀,语音需无杂音。
- 多语言支持:在 API 参数中设置
lang
为对应语言代码(如 "zh" 表示中文)。 - 开发者支持:参考
src/main/service
下的代码,自定义功能。
注意事项
- 系统需满足 100GB C 盘和 30GB D 盘空间要求。
- 安装 Docker 前确保 WSL 已启用。
- 下载镜像需 70GB 流量,建议使用稳定 WiFi。