AI个人学习
和实操指南

VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

综合介绍

VideoChat 是一个基于开源技术的实时语音交互数字人项目,支持端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。该项目允许用户自定义数字人的形象与音色,并支持音色克隆及唇形同步,支持视频流输出,首包延迟低至3秒。用户可以通过在线demo体验其功能,或通过详细的技术文档进行本地部署和使用。

演示地址:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


 

功能列表

  • 实时语音交互:支持端到端语音方案和级联方案
  • 自定义形象与音色:用户可以根据需求自定义数字人的外观和声音
  • 语音克隆:支持克隆用户的声音,提供个性化的语音体验
  • 低延迟:首包延迟低至3秒,确保流畅的交互体验
  • 开源项目:基于开源技术,用户可以自由修改和扩展功能

 

使用帮助

安装流程

  1. 环境配置
    • 操作系统:Ubuntu 22.04
    • Python 版本:3.10
    • CUDA 版本:12.2
    • Torch 版本:2.1.2
  2. 克隆项目
    git lfs install
    git clone https://github.com/Henry-23/VideoChat.git
    cd video_chat
    
  3. 创建虚拟环境并安装依赖
    conda create -n metahuman python=3.10
    conda activate metahuman
    pip install -r requirements.txt
    pip install --upgrade gradio
    
  4. 下载权重文件
    • 推荐使用创空间下载,已设置 git lfs 追踪权重文件
    git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git
    
  5. 启动服务
    python app.py
    

使用流程

  1. 配置API-KEY
    • 如果本地机器性能有限,可以使用阿里云大模型服务平台百炼提供的Qwen API和CosyVoice API,在app.py中配置API-KEY。
  2. 本地推理
    • 如果不使用API-KEY,可以在src/llm.pysrc/tts.py中配置本地推理方式,删除不需要的API调用代码。
  3. 启动服务
    • 运行python app.py启动服务。
  4. 自定义数字人形象
    • /data/video/目录中添加录制好的数字人形象视频。
    • 修改/src/thg.py中的Muse_Talk类的avatar_list,加入形象名和bbox_shift。
    • app.py中Gradio的avatar_name中加入数字人形象名后重新启动服务,等待完成初始化。

详细操作流程

  • 自定义形象与音色:在 /data/video/ 目录中添加录制好的数字人形象视频,并在 src/thg.py 中修改 Muse_Talk 类的 avatar_list,加入形象名和 bbox_shift 参数。
  • 语音克隆:在 app.py 中配置 CosyVoice API 或使用 Edge_TTS 进行本地推理。
  • 端到端语音方案:使用 GLM-4-Voice 模型,提供高效的语音生成和识别功能。

 

  1. 访问本地部署的服务地址,进入Gradio界面。
  2. 选择或上传自定义的数字人形象视频。
  3. 配置语音克隆功能,上传用户的语音样本。
  4. 开始实时语音交互,体验低延迟的对话功能。
AI轻松学

普通人的AI入门指南

帮助你以低成本、零基础学会如何利用AI工具。AI就像办公软件一样,是每个人的必备技能。 掌握AI会让你在求职中占据优势,在未来的工作和学习中事半功倍。

查看详情>
未经允许不得转载:首席AI分享圈 » VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文