VideoChat: persona digital interactiva de voz en tiempo real con clonación personalizada de imágenes y tonos, compatible con soluciones de voz de extremo a extremo y soluciones en cascada.
Últimos recursos sobre IAPublicado hace 9 meses Círculo de intercambio de inteligencia artificial 2K 00
Introducción general
VideoChat es un proyecto de humano digital de interacción vocal en tiempo real basado en tecnología de código abierto, compatible con esquemas de voz de extremo a extremo (GLM-4-Voice - THG) y en cascada (ASR-LLM-TTS-THG). El proyecto permite a los usuarios personalizar la imagen y el timbre del humano digital, y admite clonación de timbre y sincronización labial, salida de streaming de vídeo y latencia del primer paquete tan baja como 3 segundos. Los usuarios pueden experimentar su funcionalidad a través de demostraciones en línea, o desplegarlo y utilizarlo localmente gracias a una detallada documentación técnica.

演示地址:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
Lista de funciones
- 实时语音交互:支持端到端语音方案和级联方案
- 自定义形象与音色:用户可以根据需求自定义数字人的外观和声音
- 语音克隆:支持克隆用户的声音,提供个性化的语音体验
- 低延迟:首包延迟低至3秒,确保流畅的交互体验
- 开源项目:基于开源技术,用户可以自由修改和扩展功能
Utilizar la ayuda
Proceso de instalación
- Configuración del entorno
- 操作系统:Ubuntu 22.04
- Python 版本:3.10
- CUDA 版本:12.2
- Torch 版本:2.1.2
- proyecto de clonación
git lfs install git clone https://github.com/Henry-23/VideoChat.git cd video_chat
- Creación de un entorno virtual e instalación de dependencias
conda create -n metahuman python=3.10 conda activate metahuman pip install -r requirements.txt pip install --upgrade gradio
- 下载权重文件
- 推荐使用创空间下载,已设置 git lfs 追踪权重文件
git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git
- Inicio de los servicios
python app.py
Proceso de utilización
- 配置API-KEY::
- 如果本地机器性能有限,可以使用阿里云大模型服务平台百炼提供的Qwen API和CosyVoice API,在
app.py
中配置API-KEY。
- 如果本地机器性能有限,可以使用阿里云大模型服务平台百炼提供的Qwen API和CosyVoice API,在
- inferencia local::
- 如果不使用API-KEY,可以在
src/llm.py
responder cantandosrc/tts.py
中配置本地推理方式,删除不需要的API调用代码。
- 如果不使用API-KEY,可以在
- Inicio de los servicios::
- estar en movimiento
python app.py
Inicie el servicio.
- estar en movimiento
- 自定义数字人形象::
- existe
/data/video/
目录中添加录制好的数字人形象视频。 - modificaciones
/src/thg.py
中的Muse_Talk类的avatar_list,加入形象名和bbox_shift。 - existe
app.py
中Gradio的avatar_name中加入数字人形象名后重新启动服务,等待完成初始化。
- existe
Procedimiento de funcionamiento detallado
- 自定义形象与音色: en
/data/video/
目录中添加录制好的数字人形象视频,并在src/thg.py
modificaciónMuse_Talk
类的avatar_list
,加入形象名和bbox_shift
Parámetros. - clonación de voz: en
app.py
中配置CosyVoice API
或使用Edge_TTS
进行本地推理。 - 端到端语音方案: Uso
GLM-4-Voice
模型,提供高效的语音生成和识别功能。
- 访问本地部署的服务地址,进入Gradio界面。
- 选择或上传自定义的数字人形象视频。
- 配置语音克隆功能,上传用户的语音样本。
- 开始实时语音交互,体验低延迟的对话功能。
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...