VideoChat: persona digital interactiva de voz en tiempo real con clonación personalizada de imágenes y tonos, compatible con soluciones de voz de extremo a extremo y soluciones en cascada.

Introducción general

VideoChat es un proyecto de humano digital de interacción vocal en tiempo real basado en tecnología de código abierto, compatible con esquemas de voz de extremo a extremo (GLM-4-Voice - THG) y en cascada (ASR-LLM-TTS-THG). El proyecto permite a los usuarios personalizar la imagen y el timbre del humano digital, y admite clonación de timbre y sincronización labial, salida de streaming de vídeo y latencia del primer paquete tan baja como 3 segundos. Los usuarios pueden experimentar su funcionalidad a través de demostraciones en línea, o desplegarlo y utilizarlo localmente gracias a una detallada documentación técnica.

VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

Dirección de demostración: https://www.modelscope.cn/studios/AI-ModelScope/video_chat

 

Lista de funciones

  • Interacción vocal en tiempo real: compatibilidad con soluciones vocales integrales y en cascada
  • Imagen y tono personalizados: los usuarios pueden personalizar el aspecto y el sonido de la persona digital según sus necesidades.
  • Clonación de voz: permite clonar la voz del usuario para ofrecer una experiencia de voz personalizada.
  • Baja latencia: latencia del primer paquete tan baja como 3 segundos para garantizar una experiencia de interacción fluida.
  • Proyecto de código abierto: basado en tecnología de código abierto, los usuarios pueden modificar y ampliar libremente la función

 

Utilizar la ayuda

Proceso de instalación

  1. Configuración del entorno
    • Sistema operativo: Ubuntu 22.04
    • Versión de Python: 3.10
    • Versión de CUDA: 12.2
    • Versión de la linterna: 2.1.2
  2. proyecto de clonación
    git lfs install
    git clone https://github.com/Henry-23/VideoChat.git
    cd video_chat
    
  3. Creación de un entorno virtual e instalación de dependencias
    conda create -n metahuman python=3.10
    conda activate metahuman
    pip install -r requirements.txt
    pip install --upgrade gradio
    
  4. Descargar el archivo de pesos
    • Se recomienda utilizar CreateSpace para descargar, han configurado git lfs para realizar un seguimiento de los archivos de peso
    git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git
    
  5. Inicio de los servicios
    python app.py
    

Proceso de utilización

  1. Configuración de la API-KEY::
    • Si el rendimiento de la máquina local es limitado, puede utilizar la API Qwen y la API CosyVoice proporcionadas por la plataforma de servicios de grandes modelos de Aliyun, Hundred Refine, en la máquina local.app.pyConfigure la API-KEY en el
  2. inferencia local::
    • Si no utiliza la API-KEY, puede utilizarla en el camposrc/llm.pyresponder cantandosrc/tts.pyConfigure el método de inferencia local en para eliminar el código de llamada a la API innecesario.
  3. Inicio de los servicios::
    • estar en movimientopython app.pyInicie el servicio.
  4. Personalización de la persona digital::
    • existe/data/video/Catálogo para añadir un vídeo grabado de la imagen digital de la persona.
    • modificaciones/src/thg.pyen la avatar_list de la clase Muse_Talk, añadiendo el nombre de la imagen y bbox_shift.
    • existeapp.pyTras añadir el nombre de la persona digital a avatar_name en Gradio, reinicia el servicio y espera a que se complete la inicialización.

Procedimiento de funcionamiento detallado

  • Imagen y tono personalizados: en /data/video/ directorio para añadir un vídeo grabado de la imagen humana digital al src/thg.py modificación Muse_Talk clase avatar_listañada el nombre de la imagen y bbox_shift Parámetros.
  • clonación de voz: en app.py Configuración media CosyVoice API o utilizando Edge_TTS Realiza un razonamiento local.
  • Soluciones de voz de extremo a extremo: Uso GLM-4-Voice para ofrecer una generación y un reconocimiento eficaces del habla.

 

  1. Visite la dirección del servicio desplegado localmente y vaya a la interfaz de Gradio.
  2. Seleccione o cargue un vídeo personalizado de persona digital.
  3. Configure la función de clonación de voz para cargar la muestra de voz de un usuario.
  4. Inicie la interacción por voz en tiempo real y experimente las funciones de diálogo de baja latencia.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...