AI个人学习
和实操指南
讯飞绘镜

HeyGem:硅基智能开源的 Heygen 数字人平替产品

综合介绍

HeyGem 是一款专为 Windows 系统设计的完全离线视频合成工具,由 GuijiAI(硅基智能) 团队开发并在 GitHub 上开源。它利用先进的 AI 算法精准克隆用户的外貌和声音,生成逼真的虚拟形象,并支持通过文字或语音驱动这些形象制作个性化视频。工具无需联网,所有操作在本地完成,确保用户隐私安全。HeyGem 支持多语言脚本(包括英语、日语、韩语、中文等八种语言),界面简洁直观,适合无技术背景的用户快速上手,同时提供开放 API,方便开发者扩展功能。几个月前硅基智能开源移动版数字人 DUIX:实时互动的智能数字人,支持多平台一键部署

HeyGem:硅基智能开源的 Heygen 数字人平替项目-1

HeyGem 官方下载地址:https://heygem.ai/


 

功能列表

  • 精准外貌与声音克隆:通过 AI 技术捕捉面部特征和声线细节,生成高保真的虚拟形象和声音,支持参数调整。
  • 文字驱动虚拟形象:输入文本后,工具自动生成自然语音并驱动虚拟形象完成唇形同步和表情动作。
  • 语音驱动视频制作:通过用户语音输入,控制虚拟形象的语调和节奏,生成动态视频。
  • 全离线运行:无需网络连接,所有数据本地处理,保障隐私安全。
  • 多语言支持:支持英语、日语、韩语、中文、法语、德语、阿拉伯语、西班牙语八种语言脚本。
  • 高效视频合成:智能优化音视频同步,确保唇形与声音自然匹配。
  • 开源 API 接口:提供模型训练和视频合成的 API,开发者可自定义功能。

 

使用帮助

安装流程

以下安装流程严格遵循官方说明,保留原文和图片地址:

Prerequisites

  1. 必须有 D 盘:主要用于存储数字形象和项目数据
    • 空闲空间要求:大于 30GB
  2. C 盘:用于存储服务镜像文件
    • 空闲空间要求:大于 100GB
    • 如果可用空间少于 100GB,安装 Docker 后,可在下图所示位置选择一个空闲空间大于 100GB 的磁盘文件夹:
      HeyGem:Heygen数字人开源平替项目-1
  3. 系统要求
    • 当前支持 Windows 10 19042.1526 或更高版本
  4. 推荐配置
    • CPU:13th Gen Intel Core i5-13400F
    • 内存:32GB
    • 显卡:RTX-4070
  5. 确保拥有 NVIDIA 显卡并正确安装驱动
    • NVIDIA 驱动下载链接:https://www.nvidia.cn/drivers/lookup/
      HeyGem:Heygen数字人开源平替项目-2

Installing Windows Docker

  1. 使用命令 wsl --list --verbose 检查是否已安装 WSL。下图显示已安装,无需重新安装:
    HeyGem:Heygen数字人开源平替项目-3

    • WSL 安装命令:wsl --install
    • 可能因网络问题失败,请多次尝试
    • 安装过程中需设置并记住新的用户名和密码
  2. 使用 wsl --update 更新 WSL:
    HeyGem:Heygen数字人开源平替项目-4
  3. 下载 Windows 版 Docker,选择适合你 CPU 架构的安装包。
  4. 此界面表示安装成功:
    HeyGem:Heygen数字人开源平替项目-5
  5. 运行 Docker:
    HeyGem:Heygen数字人开源平替项目-6
  6. 首次运行时接受协议并跳过登录:
    HeyGem:Heygen数字人开源平替项目-7
    HeyGem:Heygen数字人开源平替项目-8
    HeyGem:Heygen数字人开源平替项目-9

Installing the Server

使用 Docker 和 docker-compose 安装如下:

  1. docker-compose.yml 文件位于 /deploy 目录。
  2. 在 /deploy 目录下执行 docker-compose up -d
  3. 耐心等待(约半小时,取决于网速),下载将消耗约 70GB 流量,请确保使用 WiFi。
  4. 当 Docker 中看到三个服务时,表示成功:
    HeyGem:Heygen数字人开源平替项目-10

Client

  1. 构建脚本 npm run build:win,执行后将在 dist 目录生成 HeyGem-1.0.0-setup.exe
  2. 双击 HeyGem-1.0.0-setup.exe 进行安装。

Dependencies

  1. Nodejs 18
  2. Docker 镜像:
    • docker pull guiji2025/fun-asr:1.0.1
    • docker pull guiji2025/fish-speech-ziming:1.0.39
    • docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

主要功能操作流程

1. 外貌与声音克隆

  • 准备素材
    • 录制一段清晰语音(10-30 秒,WAV 格式),放入 D:\heygem_data\voice\data
    • 拍摄一张正面高清照片,放入 D:\heygem_data\face2face(路径可在 docker-compose.yml 中调整)。
  • 运行克隆功能
    • 启动客户端,打开界面后选择“模型训练”。
    • 调用 API http://127.0.0.1:18180/v1/preprocess_and_tran,输入参数如:
      {
      "format": ".wav",
      "reference_audio": "D:/heygem_data/voice/data/sample.wav",
      "lang": "zh"
      }
      
    • 获取返回结果(如音频路径和文本),保存以备后续使用。

2. 文字驱动虚拟形象

  • 输入文本
    • 在客户端界面选择“音频合成”,调用 API http://127.0.0.1:18180/v1/invoke,输入参数如:
      {
      "speaker": "unique-uuid",
      "text": "欢迎体验 HeyGem.ai",
      "format": "wav",
      "topP": 0.7,
      "max_new_tokens": 1024,
      "chunk_length": 100,
      "repetition_penalty": 1.2,
      "temperature": 0.7,
      "need_asr": false,
      "streaming": false,
      "is_fixed_seed": 0,
      "is_norm": 0,
      "reference_audio": "返回的音频路径",
      "reference_text": "返回的文本"
      }
      
  • 生成视频
    • 使用合成接口 http://127.0.0.1:8383/easy/submit,输入参数如:
      {
      "audio_url": "生成的音频路径",
      "video_url": "D:/heygem_data/face2face/sample.mp4",
      "code": "unique-uuid",
      "chaofen": 0,
      "watermark_switch": 0,
      "pn": 1
      }
      
    • 查询进度:http://127.0.0.1:8383/easy/query?code=unique-uuid
  • 保存结果
    • 完成后,视频文件保存在本地指定路径。

3. 语音驱动视频制作

  • 录制语音
    • 在客户端录制语音,或直接上传 WAV 文件至 D:\heygem_data\voice\data
  • 生成视频
    • 调用上述音频和视频合成 API,生成带动作的虚拟形象视频。
  • 预览与调整
    • 通过客户端预览效果,可调整参数后重新生成。

使用技巧

  • 素材要求:照片需光线均匀,语音需无杂音。
  • 多语言支持:在 API 参数中设置 lang 为对应语言代码(如 "zh" 表示中文)。
  • 开发者支持:参考 src/main/service 下的代码,自定义功能。

注意事项

  • 系统需满足 100GB C 盘和 30GB D 盘空间要求。
  • 安装 Docker 前确保 WSL 已启用。
  • 下载镜像需 70GB 流量,建议使用稳定 WiFi。
CDN1
未经允许不得转载:首席AI分享圈 » HeyGem:硅基智能开源的 Heygen 数字人平替产品

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文