HeyGem：硅基智能开源的 Heygen 数字人平替产品

129.5K 00

综合介绍

HeyGem 是一款专为 Windows 系统设计的完全离线视频合成工具，由 GuijiAI（硅基智能）团队开发并在 GitHub 上开源。它利用先进的 AI 算法精准克隆用户的外貌和声音，生成逼真的虚拟形象，并支持通过文字或语音驱动这些形象制作个性化视频。工具无需联网，所有操作在本地完成，确保用户隐私安全。HeyGem 支持多语言脚本（包括英语、日语、韩语、中文等八种语言），界面简洁直观，适合无技术背景的用户快速上手，同时提供开放 API，方便开发者扩展功能。几个月前硅基智能开源移动版数字人 DUIX：实时互动的智能数字人，支持多平台一键部署。

HeyGem 官方下载地址：https://heygem.ai/

功能列表

精准外貌与声音克隆：通过 AI 技术捕捉面部特征和声线细节，生成高保真的虚拟形象和声音，支持参数调整。
文字驱动虚拟形象：输入文本后，工具自动生成自然语音并驱动虚拟形象完成唇形同步和表情动作。
语音驱动视频制作：通过用户语音输入，控制虚拟形象的语调和节奏，生成动态视频。
全离线运行：无需网络连接，所有数据本地处理，保障隐私安全。
多语言支持：支持英语、日语、韩语、中文、法语、德语、阿拉伯语、西班牙语八种语言脚本。
高效视频合成：智能优化音视频同步，确保唇形与声音自然匹配。
开源 API 接口：提供模型训练和视频合成的 API，开发者可自定义功能。

使用帮助

安装流程

以下安装流程严格遵循官方说明，保留原文和图片地址：

Prerequisites

必须有 D 盘：主要用于存储数字形象和项目数据
- 空闲空间要求：大于 30GB
C 盘：用于存储服务镜像文件
- 空闲空间要求：大于 100GB
- 如果可用空间少于 100GB，安装 Docker 后，可在下图所示位置选择一个空闲空间大于 100GB 的磁盘文件夹：
系统要求：
- 当前支持 Windows 10 19042.1526 或更高版本
推荐配置：
- CPU：13th Gen Intel Core i5-13400F
- 内存：32GB
- 显卡：RTX-4070
确保拥有 NVIDIA 显卡并正确安装驱动
- NVIDIA 驱动下载链接：https://www.nvidia.cn/drivers/lookup/

Installing Windows Docker

使用命令 wsl --list --verbose 检查是否已安装 WSL。下图显示已安装，无需重新安装：
- WSL 安装命令：wsl --install
- 可能因网络问题失败，请多次尝试
- 安装过程中需设置并记住新的用户名和密码
使用 wsl --update 更新 WSL：
下载 Windows 版 Docker，选择适合你 CPU 架构的安装包。
此界面表示安装成功：
运行 Docker：
首次运行时接受协议并跳过登录：

Installing the Server

使用 Docker 和 docker-compose 安装如下：

docker-compose.yml 文件位于 /deploy 目录。
在 /deploy 目录下执行 docker-compose up -d。
耐心等待（约半小时，取决于网速），下载将消耗约 70GB 流量，请确保使用 WiFi。
当 Docker 中看到三个服务时，表示成功：

Client

构建脚本 npm run build:win，执行后将在 dist 目录生成 HeyGem-1.0.0-setup.exe。
双击 HeyGem-1.0.0-setup.exe 进行安装。

Dependencies

Nodejs 18
Docker 镜像：
- docker pull guiji2025/fun-asr:1.0.1
- docker pull guiji2025/fish-speech-ziming:1.0.39
- docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

主要功能操作流程

1. 外貌与声音克隆

准备素材
- 录制一段清晰语音（10-30 秒，WAV 格式），放入 D:\heygem_data\voice\data。
- 拍摄一张正面高清照片，放入 D:\heygem_data\face2face（路径可在 docker-compose.yml 中调整）。
运行克隆功能
- 启动客户端，打开界面后选择“模型训练”。
- 调用 API http://127.0.0.1:18180/v1/preprocess_and_tran，输入参数如：
```
{
"format": ".wav",
"reference_audio": "D:/heygem_data/voice/data/sample.wav",
"lang": "zh"
}
```
- 获取返回结果（如音频路径和文本），保存以备后续使用。

2. 文字驱动虚拟形象

输入文本

在客户端界面选择“音频合成”，调用 API http://127.0.0.1:18180/v1/invoke，输入参数如：

{
"speaker": "unique-uuid",
"text": "欢迎体验 HeyGem.ai",
"format": "wav",
"topP": 0.7,
"max_new_tokens": 1024,
"chunk_length": 100,
"repetition_penalty": 1.2,
"temperature": 0.7,
"need_asr": false,
"streaming": false,
"is_fixed_seed": 0,
"is_norm": 0,
"reference_audio": "返回的音频路径",
"reference_text": "返回的文本"
}

生成视频

使用合成接口 http://127.0.0.1:8383/easy/submit，输入参数如：

{
"audio_url": "生成的音频路径",
"video_url": "D:/heygem_data/face2face/sample.mp4",
"code": "unique-uuid",
"chaofen": 0,
"watermark_switch": 0,
"pn": 1
}

查询进度：http://127.0.0.1:8383/easy/query?code=unique-uuid。

保存结果
- 完成后，视频文件保存在本地指定路径。

3. 语音驱动视频制作

录制语音
- 在客户端录制语音，或直接上传 WAV 文件至 D:\heygem_data\voice\data。
生成视频
- 调用上述音频和视频合成 API，生成带动作的虚拟形象视频。
预览与调整
- 通过客户端预览效果，可调整参数后重新生成。

使用技巧

素材要求：照片需光线均匀，语音需无杂音。
多语言支持：在 API 参数中设置 lang 为对应语言代码（如 "zh" 表示中文）。
开发者支持：参考 src/main/service 下的代码，自定义功能。

注意事项

系统需满足 100GB C 盘和 30GB D 盘空间要求。
安装 Docker 前确保 WSL 已启用。
下载镜像需 70GB 流量，建议使用稳定 WiFi。

最新AI资源 # AI开源项目 # AI数字人

文章版权归 AI分享圈所有，未经允许请勿转载。

GLM-5-Turbo - 智谱 AI 推出专为 OpenClaw 场景深度优化的基座模型

Sagehood AI：利用AI分析简化美股市场投资决策，优化投资组合

最新AI资源 # AI金融数据分析

1年前

053.1K

ScreenPipe：24小时收集录屏和操作信息并转换为本地知识库，通过AI助手对话、总结、回顾知识

最新AI资源 # AI文本与音频/视频总结工具 # AI笔记 # OCR

1年前

066.1K

SynthLight：对肖像图像进行自然光照渲染（未发布）

最新AI资源 # AI图像风格控制 # AI开源项目

1年前

052.8K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

HeyGem：硅基智能开源的 Heygen 数字人平替产品

综合介绍

功能列表

使用帮助