VideoChat: persona digital interactiva de voz en tiempo real con clonación personalizada de imágenes y tonos, compatible con soluciones de voz de extremo a extremo y soluciones en cascada.

Introducción general

VideoChat es un proyecto de humano digital de interacción vocal en tiempo real basado en tecnología de código abierto, compatible con esquemas de voz de extremo a extremo (GLM-4-Voice - THG) y en cascada (ASR-LLM-TTS-THG). El proyecto permite a los usuarios personalizar la imagen y el timbre del humano digital, y admite clonación de timbre y sincronización labial, salida de streaming de vídeo y latencia del primer paquete tan baja como 3 segundos. Los usuarios pueden experimentar su funcionalidad a través de demostraciones en línea, o desplegarlo y utilizarlo localmente gracias a una detallada documentación técnica.

VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

演示地址:https://www.modelscope.cn/studios/AI-ModelScope/video_chat

 

Lista de funciones

  • 实时语音交互:支持端到端语音方案和级联方案
  • 自定义形象与音色:用户可以根据需求自定义数字人的外观和声音
  • 语音克隆:支持克隆用户的声音,提供个性化的语音体验
  • 低延迟:首包延迟低至3秒,确保流畅的交互体验
  • 开源项目:基于开源技术,用户可以自由修改和扩展功能

 

Utilizar la ayuda

Proceso de instalación

  1. Configuración del entorno
    • 操作系统:Ubuntu 22.04
    • Python 版本:3.10
    • CUDA 版本:12.2
    • Torch 版本:2.1.2
  2. proyecto de clonación
    git lfs install
    git clone https://github.com/Henry-23/VideoChat.git
    cd video_chat
    
  3. Creación de un entorno virtual e instalación de dependencias
    conda create -n metahuman python=3.10
    conda activate metahuman
    pip install -r requirements.txt
    pip install --upgrade gradio
    
  4. 下载权重文件
    • 推荐使用创空间下载,已设置 git lfs 追踪权重文件
    git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git
    
  5. Inicio de los servicios
    python app.py
    

Proceso de utilización

  1. 配置API-KEY::
    • 如果本地机器性能有限,可以使用阿里云大模型服务平台百炼提供的Qwen API和CosyVoice API,在app.py中配置API-KEY。
  2. inferencia local::
    • 如果不使用API-KEY,可以在src/llm.pyresponder cantandosrc/tts.py中配置本地推理方式,删除不需要的API调用代码。
  3. Inicio de los servicios::
    • estar en movimientopython app.pyInicie el servicio.
  4. 自定义数字人形象::
    • existe/data/video/目录中添加录制好的数字人形象视频。
    • modificaciones/src/thg.py中的Muse_Talk类的avatar_list,加入形象名和bbox_shift。
    • existeapp.py中Gradio的avatar_name中加入数字人形象名后重新启动服务,等待完成初始化。

Procedimiento de funcionamiento detallado

  • 自定义形象与音色: en /data/video/ 目录中添加录制好的数字人形象视频,并在 src/thg.py modificación Muse_Talk 类的 avatar_list,加入形象名和 bbox_shift Parámetros.
  • clonación de voz: en app.py 中配置 CosyVoice API 或使用 Edge_TTS 进行本地推理。
  • 端到端语音方案: Uso GLM-4-Voice 模型,提供高效的语音生成和识别功能。

 

  1. 访问本地部署的服务地址,进入Gradio界面。
  2. 选择或上传自定义的数字人形象视频。
  3. 配置语音克隆功能,上传用户的语音样本。
  4. 开始实时语音交互,体验低延迟的对话功能。
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...