VideoChat: persona digital interactiva de voz en tiempo real con clonación personalizada de imágenes y tonos, compatible con soluciones de voz de extremo a extremo y soluciones en cascada.

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

42.7K 00

Introducción general

VideoChat es un proyecto de humano digital de interacción vocal en tiempo real basado en tecnología de código abierto, compatible con esquemas de voz de extremo a extremo (GLM-4-Voice - THG) y en cascada (ASR-LLM-TTS-THG). El proyecto permite a los usuarios personalizar la imagen y el timbre del humano digital, y admite clonación de timbre y sincronización labial, salida de streaming de vídeo y latencia del primer paquete tan baja como 3 segundos. Los usuarios pueden experimentar su funcionalidad a través de demostraciones en línea, o desplegarlo y utilizarlo localmente gracias a una detallada documentación técnica.

VideoChat：自定义形象和音色克隆的实时语音交互数字人，支持端到端语音方案和级联方案

Dirección de demostración: https://www.modelscope.cn/studios/AI-ModelScope/video_chat

Lista de funciones

Interacción vocal en tiempo real: compatibilidad con soluciones vocales integrales y en cascada
Imagen y tono personalizados: los usuarios pueden personalizar el aspecto y el sonido de la persona digital según sus necesidades.
Clonación de voz: permite clonar la voz del usuario para ofrecer una experiencia de voz personalizada.
Baja latencia: latencia del primer paquete tan baja como 3 segundos para garantizar una experiencia de interacción fluida.
Proyecto de código abierto: basado en tecnología de código abierto, los usuarios pueden modificar y ampliar libremente la función

Utilizar la ayuda

Proceso de instalación

Configuración del entorno
- Sistema operativo: Ubuntu 22.04
- Versión de Python: 3.10
- Versión de CUDA: 12.2
- Versión de la linterna: 2.1.2

proyecto de clonación

git lfs install
git clone https://github.com/Henry-23/VideoChat.git
cd video_chat

Creación de un entorno virtual e instalación de dependencias

conda create -n metahuman python=3.10
conda activate metahuman
pip install -r requirements.txt
pip install --upgrade gradio

Descargar el archivo de pesos
- Se recomienda utilizar CreateSpace para descargar, han configurado git lfs para realizar un seguimiento de los archivos de peso
```
git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git
```
Inicio de los servicios
```
python app.py
```

Proceso de utilización

Configuración de la API-KEY::
- Si el rendimiento de la máquina local es limitado, puede utilizar la API Qwen y la API CosyVoice proporcionadas por la plataforma de servicios de grandes modelos de Aliyun, Hundred Refine, en la máquina local.app.pyConfigure la API-KEY en el
inferencia local::
- Si no utiliza la API-KEY, puede utilizarla en el camposrc/llm.pyresponder cantandosrc/tts.pyConfigure el método de inferencia local en para eliminar el código de llamada a la API innecesario.
Inicio de los servicios::
- estar en movimientopython app.pyInicie el servicio.
Personalización de la persona digital::
- existe/data/video/Catálogo para añadir un vídeo grabado de la imagen digital de la persona.
- modificaciones/src/thg.pyen la avatar_list de la clase Muse_Talk, añadiendo el nombre de la imagen y bbox_shift.
- existeapp.pyTras añadir el nombre de la persona digital a avatar_name en Gradio, reinicia el servicio y espera a que se complete la inicialización.

Procedimiento de funcionamiento detallado

Imagen y tono personalizados: en /data/video/ directorio para añadir un vídeo grabado de la imagen humana digital al src/thg.py modificación Muse_Talk clase avatar_listañada el nombre de la imagen y bbox_shift Parámetros.
clonación de voz: en app.py Configuración media CosyVoice API o utilizando Edge_TTS Realiza un razonamiento local.
Soluciones de voz de extremo a extremo: Uso GLM-4-Voice para ofrecer una generación y un reconocimiento eficaces del habla.

Visite la dirección del servicio desplegado localmente y vaya a la interfaz de Gradio.
Seleccione o cargue un vídeo personalizado de persona digital.
Configure la función de clonación de voz para cargar la muestra de voz de un usuario.
Inicie la interacción por voz en tiempo real y experimente las funciones de diálogo de baja latencia.

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Wanxing Meow Shadow (Filmora): Herramienta de edición de vídeo todo en uno

Últimos recursos sobre IA # AI editor de audio/vídeo

hace 1 año

051.1K

Solvely: un asistente de aprendizaje de inteligencia artificial para resolver enigmas matemáticos (resolución de fotos), científicos y de artes liberales.

Últimos recursos sobre IA # AI Herramientas educativas

hace 11 meses

060.7K

Lipdub: traduce vídeos, rompe las barreras lingüísticas, subtitula en varios idiomas y admite sincronización labial.

Últimos recursos sobre IA # AI Traducción Sincronización de puertos #

hace 1 año

041.9K

Pyscn - Herramienta gratuita de análisis de la calidad del código de IA de código abierto para desarrolladores de Python

Últimos recursos sobre IA

hace 3 meses

017.4K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

VideoChat: persona digital interactiva de voz en tiempo real con clonación personalizada de imágenes y tonos, compatible con soluciones de voz de extremo a extremo y soluciones en cascada.

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Proceso de utilización

Procedimiento de funcionamiento detallado

Ichigo (llama3-s): asistente de voz local en tiempo real, versión de código abierto de Siri.

fal: API de macromodelado generativo para desarrolladores de clases multimedia enriquecidas

Artículos relacionados

Wanxing Meow Shadow (Filmora): Herramienta de edición de vídeo todo en uno

Solvely: un asistente de aprendizaje de inteligencia artificial para resolver enigmas matemáticos (resolución de fotos), científicos y de artes liberales.

Lipdub: traduce vídeos, rompe las barreras lingüísticas, subtitula en varios idiomas y admite sincronización labial.

Pyscn - Herramienta gratuita de análisis de la calidad del código de IA de código abierto para desarrolladores de Python

Sin comentarios

Últimas colecciones

Últimos artículos

VideoChat: persona digital interactiva de voz en tiempo real con clonación personalizada de imágenes y tonos, compatible con soluciones de voz de extremo a extremo y soluciones en cascada.

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Proceso de utilización

Procedimiento de funcionamiento detallado

Ichigo (llama3-s): asistente de voz local en tiempo real, versión de código abierto de Siri.

fal: API de macromodelado generativo para desarrolladores de clases multimedia enriquecidas

Artículos relacionados

Wanxing Meow Shadow (Filmora): Herramienta de edición de vídeo todo en uno

Solvely: un asistente de aprendizaje de inteligencia artificial para resolver enigmas matemáticos (resolución de fotos), científicos y de artes liberales.

Lipdub: traduce vídeos, rompe las barreras lingüísticas, subtitula en varios idiomas y admite sincronización labial.

Pyscn - Herramienta gratuita de análisis de la calidad del código de IA de código abierto para desarrolladores de Python

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos