LiveTalking: sistema digital interactivo en tiempo real de código abierto que permite el diálogo síncrono por audio y vídeo.

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

91.7K 01

Introducción general

LiveTalking es un sistema humano digital interactivo en tiempo real de código abierto, dedicado a construir una solución humana digital en directo de alta calidad. El proyecto utiliza el protocolo de código abierto Apache 2.0 e integra una serie de tecnologías de vanguardia, como la renderización ER-NeRF, el procesamiento de flujos de audio y vídeo en tiempo real, la sincronización de labios, etc. El sistema es compatible con el renderizado y la interacción humana digital en tiempo real, y puede utilizarse para retransmisiones en directo, educación en línea, atención al cliente y muchos otros escenarios. LiveTalking presta especial atención al rendimiento en tiempo real y a la experiencia interactiva, y proporciona a los usuarios un completo marco de desarrollo humano digital mediante la integración de la tecnología AIGC. El proyecto se actualiza y mantiene continuamente, y está respaldado por una completa documentación, lo que lo convierte en una opción ideal para crear aplicaciones de persona digital.

Lista de funciones

Admite múltiples modelos humanos digitales:ernerfymusetalkywav2lipyUltraligero-Digital-Humano
Logre un diálogo simultáneo de audio y vídeo
Clonación de sonidos
Los pro-digital hablan y son interrumpidos
Admite el empalme de vídeo de cuerpo entero
Admite flujos RTMP y WebRTC push
Soporte para programación de vídeos: reproduce vídeos personalizados cuando no estés hablando
Admite múltiples concurrencias

Utilizar la ayuda

1.Proceso de instalación

Requisitos medioambientales : Ubuntu 20.04, Python 3.10, Pytorch 1.12, CUDA 11.3
Instalación de dependencias ::

conda create -n nerfstream python=3.10
conda activate nerfstream
conda install pytorch==1.12.1 torchvision==0.13.1 cudatoolkit=11.3 -c pytorch
pip install -r requirements.txt

Si no entrenas. ernerf no es necesario instalar las siguientes bibliotecas:

pip install "git+https://github.com/facebookresearch/pytorch3d.git"
pip install tensorflow-gpu==2.8.0
pip install --upgrade "protobuf<=3.20.1"

2. Inicio rápido

Funcionamiento del SRS ::

export CANDIDATE='<服务器外网ip>'
docker run --rm --env CANDIDATE=$CANDIDATE -p 1935:1935 -p 8080:8080 -p 1985:1985 -p 8000:8000/udp registry.cn-hangzhou.aliyuncs.com/ossrs/srs:5 objs/srs -c conf/rtc.conf

Observaciones: El servidor necesita abrir los puertos tcp:8000,8010,1985; udp:8000

Lanzamiento de Digital People ::

python app.py

Si no puedes acceder a Huggingface, ejecútalo antes de correr:

export HF_ENDPOINT=https://hf-mirror.com

Abrir con el navegador http://serverip:8010/rtcpushapi.htmlSi introduce algún texto en el cuadro de texto, envíelo y la persona digital emitirá el pasaje.

Más instrucciones de uso

Docker en ejecución : No es necesaria la instalación previa, basta con ejecutarlo:

docker run --gpus all -it --network=host --rm registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:vjo1Y6NJ3N

El código se encuentra en /root/metahuman-streamanterior git pull Extraiga el último código y ejecute el comando como en los pasos 2 y 3.

Mirroring ::
- imagen autodl:tutorial de autodl
- espejos ucloud:Tutorial de ucloud
problemas comunes Para configurar el entorno CUDA en Linux, consulte este artículo:artículo de referencia

3. Instrucciones de configuración

Configuración del sistema

Edite el archivo config.yaml para establecer los parámetros básicos
Configuración de cámaras y dispositivos de audio
Ajuste de los parámetros y trayectorias del modelo de IA
Configurar los parámetros de la transmisión push en directo

Preparación del modelo humano digital

Importación de modelos 3D personalizados
Se pueden utilizar modelos de ejemplo preconstruidos
Admite la importación de modelos MetaHuman

Funciones principales

Diálogo sincrónico de audio y vídeo en tiempo real::
1. Seleccione el modelo de digitalizador: Seleccione el modelo de digitalizador adecuado (por ejemplo, ernerf, musetalk, etc.) en la página de configuración.
2. Selección del método de transmisión de audio/vídeo: Seleccione el método de transmisión de audio/vídeo adecuado (por ejemplo, WebRTC, RTMP, etc.) en función de los requisitos.
3. Iniciar un diálogo: inicia la transmisión de audio/vídeo para conseguir un diálogo síncrono de audio/vídeo en tiempo real.
Cambio de modelo humano digital::
1. Entrar en la página de configuración: En la página de ejecución del proyecto, haga clic en el botón Configuración para entrar en la página de configuración.
2. Seleccionar nuevo modelo: Selecciona un nuevo modelo de Digimon en la página Configuración y guarda los ajustes.
3. Reiniciar proyecto: reinicia el proyecto para aplicar la nueva configuración del modelo.
Ajuste de los parámetros de audio y vídeo::
1. Entrar en la página de parametrización: En la página de ejecución del proyecto, haga clic en el botón de parametrización para entrar en la página de parametrización.
2. Parámetros de ajuste: Ajuste los parámetros de audio y vídeo (como la resolución, la frecuencia de imagen, etc.) según sea necesario.
3. Guardar y aplicar: Guarda los ajustes y aplica la nueva configuración de parámetros.

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

KushoAI: un asistente de IA para pruebas automatizadas de API

Últimos recursos sobre IA # Programación de IA

hace 11 meses

041.1K

DH live: AI digital people con interacción fluida en tiempo real en tarjetas gráficas de la serie 30/40

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Digital Man

hace 1 año

046K

HunyuanOCR - Modelo experto de código abierto de Tencent para el reconocimiento óptico de caracteres

Últimos recursos sobre IA

hace 2 meses

021.3K

PandaWiki - Sistema de construcción de bases de conocimiento de código abierto basado en grandes modelos de IA

Últimos recursos sobre IA

hace 7 meses

043.7K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

LiveTalking: sistema digital interactivo en tiempo real de código abierto que permite el diálogo síncrono por audio y vídeo.

Introducción general

Lista de funciones

Utilizar la ayuda

1.Proceso de instalación

2. Inicio rápido

3. Instrucciones de configuración

Funciones principales

Animación: genere animaciones 3D en tiempo real para crear personajes virtuales realistas.

SVFR: un marco unificado para implementar la reparación de rostros en vídeo, reparar vídeos en blanco y negro, retratos borrosos y antiguos

Artículos relacionados

KushoAI: un asistente de IA para pruebas automatizadas de API

DH live: AI digital people con interacción fluida en tiempo real en tarjetas gráficas de la serie 30/40

HunyuanOCR - Modelo experto de código abierto de Tencent para el reconocimiento óptico de caracteres

PandaWiki - Sistema de construcción de bases de conocimiento de código abierto basado en grandes modelos de IA

Sin comentarios

Últimas colecciones

Últimos artículos

LiveTalking: sistema digital interactivo en tiempo real de código abierto que permite el diálogo síncrono por audio y vídeo.

Introducción general

Lista de funciones

Utilizar la ayuda

1.Proceso de instalación

2. Inicio rápido

3. Instrucciones de configuración

Funciones principales

Animación: genere animaciones 3D en tiempo real para crear personajes virtuales realistas.

SVFR: un marco unificado para implementar la reparación de rostros en vídeo, reparar vídeos en blanco y negro, retratos borrosos y antiguos

Artículos relacionados

KushoAI: un asistente de IA para pruebas automatizadas de API

DH live: AI digital people con interacción fluida en tiempo real en tarjetas gráficas de la serie 30/40

HunyuanOCR - Modelo experto de código abierto de Tencent para el reconocimiento óptico de caracteres

PandaWiki - Sistema de construcción de bases de conocimiento de código abierto basado en grandes modelos de IA

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos