HeyGem: el cojín digital humano de código abierto Heygen de Silicon Intelligence

Últimos recursos sobre IAActualizado hace 10 meses Círculo de intercambio de inteligencia artificial

129.3K 00

Introducción general

HeyGem es una herramienta de composición de vídeo totalmente offline para Windows, desarrollada por el equipo GuijiAI y de código abierto en GitHub. Utiliza algoritmos avanzados de IA para clonar con precisión el aspecto y la voz de un usuario y crear avatares realistas, y permite crear vídeos personalizados mediante texto o voz. La herramienta no necesita estar conectada a Internet, todas las operaciones se realizan localmente para garantizar la privacidad y seguridad del usuario. HeyGem admite escritura en varios idiomas (incluidos inglés, japonés, coreano, chino y otros ocho idiomas), interfaz sencilla e intuitiva, adecuada para que los usuarios sin conocimientos técnicos puedan empezar a utilizarla rápidamente, y proporciona una API abierta, lo que resulta cómodo para que los desarrolladores amplíen las funcionalidades. Hace unos meses, Silicon Intelligence lanzó la versión móvil de código abierto de la persona digital DUIX: personas digitales inteligentes e interactivas en tiempo real con soporte de despliegue multiplataforma con un solo clic.

Dirección oficial de descarga de HeyGem: https://heygem.ai/

Lista de funciones

Clonación precisa del aspecto y la voz: La tecnología de IA captura los rasgos faciales y los detalles vocales para generar avatares y voces de alta fidelidad con soporte para el ajuste de parámetros.
Imágenes virtuales basadas en textoLa herramienta, una vez introducido el texto, genera automáticamente un habla natural y dirige el avatar mediante la sincronización de los labios y los movimientos de expresión.
Producción de vídeo con voz: Genera vídeos dinámicos controlando el tono y el ritmo del avatar mediante la voz del usuario.
Funcionamiento totalmente offlineNo se requiere conexión a la red y todos los datos se procesan localmente para mayor privacidad y seguridad.
Soporte multilingüeCompatible con ocho idiomas: inglés, japonés, coreano, chino, francés, alemán, árabe y español.
Composición eficaz de vídeo: La optimización inteligente de la sincronización de audio y vídeo garantiza una correspondencia natural entre la forma de los labios y la voz.
Interfaz API de código abierto: Proporciona API para la formación de modelos y la composición de vídeo, con funciones personalizables para los desarrolladores.

Utilizar la ayuda

Proceso de instalación

El siguiente proceso de instalación sigue estrictamente las instrucciones oficiales, conservando el texto original y las direcciones de las imágenes:

Requisitos previos

Debe tener el disco D.: Principalmente para almacenar imágenes digitales y datos de proyectos
- Espacio libre necesario: más de 30 GB
Disco C: Se utiliza para almacenar archivos de imagen de servicio
- Espacio libre necesario: más de 100 GB
- Si tiene menos de 100 GB de espacio libre, después de instalar Docker, puede seleccionar una carpeta en un disco con más de 100 GB de espacio libre en la ubicación que se muestra a continuación:
requisitos del sistema::
- Actualmente compatible con Windows 10 19042.1526 o posterior
Configuraciones recomendadas::
- CPU: Intel Core i5-13400F de 13ª generación
- Memoria: 32 GB
- Tarjeta gráfica: RTX-4070
Asegúrate de que tienes una tarjeta gráfica NVIDIA y de que los controladores están instalados correctamente.
- Enlace de descarga del controlador NVIDIA: https://www.nvidia.cn/drivers/lookup/

Instalación de Windows Docker

Uso de comandos wsl --list --verbose Compruebe que WSL está instalado. la siguiente figura muestra que está instalado y no es necesario volver a instalarlo:
- Comandos de instalación de WSL:wsl --install
- Puede fallar debido a problemas de red, por favor inténtelo varias veces
- Es necesario configurar y recordar un nuevo nombre de usuario y contraseña durante el proceso de instalación.
utilizar wsl --update Actualizar WSL:
Descarga Docker para Windows y elige un instalador que se adapte a la arquitectura de tu CPU.
Esta pantalla indica que la instalación se ha realizado correctamente:
Ejecuta Docker:
Acepta el protocolo y omite el inicio de sesión en la primera ejecución:

Instalación del servidor

Instale lo siguiente utilizando Docker y docker-compose:

docker-compose.yml El archivo se encuentra en la carpeta /deploy Catálogo.
existe /deploy para ejecutar el programa docker-compose up -d.
Espera pacientemente (alrededor de media hora, dependiendo de la velocidad de Internet), la descarga consumirá alrededor de 70GB de tráfico, por favor asegúrate de usar WiFi.
El éxito se indica cuando se ven tres servicios en Docker:

Cliente

Guión de construcción npm run build:winTras la ejecución, estará en el dist Generación de catálogos HeyGem-1.0.0-setup.exe.
doble clic HeyGem-1.0.0-setup.exe Realiza la instalación.

Dependencias

Nodejs 18
Imagen Docker:
- docker pull guiji2025/fun-asr:1.0.1
- docker pull guiji2025/fish-speech-ziming:1.0.39
- docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

Funciones principales

1. Apariencia y clonación de la voz

Preparar el material
- Grabe una voz clara (10-30 segundos en formato WAV) y póngala en el D:\heygem_data\voice\data.
- Tome una foto de alta resolución del anverso y colóquela en el D:\heygem_data\face2face(Las rutas se encuentran en docker-compose.yml (Ajustado en).
Ejecución de la función clonar
- Inicie el cliente, abra la interfaz y seleccione "Model Training".
- Llamada a la API http://127.0.0.1:18180/v1/preprocess_and_tranparámetros de entrada como:
```
{
"format": ".wav",
"reference_audio": "D:/heygem_data/voice/data/sample.wav",
"lang": "zh"
}
```
- Obtener los resultados devueltos (por ejemplo, ruta de audio y texto) y guardarlos para su uso posterior.

2. Imágenes virtuales basadas en texto

texto introducido

Selecciona "Síntesis de audio" en la interfaz de cliente y llama a la API. http://127.0.0.1:18180/v1/invokeparámetros de entrada como:

{
"speaker": "unique-uuid",
"text": "欢迎体验 HeyGem.ai",
"format": "wav",
"topP": 0.7,
"max_new_tokens": 1024,
"chunk_length": 100,
"repetition_penalty": 1.2,
"temperature": 0.7,
"need_asr": false,
"streaming": false,
"is_fixed_seed": 0,
"is_norm": 0,
"reference_audio": "返回的音频路径",
"reference_text": "返回的文本"
}

Generar vídeo
- Uso de la interfaz de síntesis http://127.0.0.1:8383/easy/submitparámetros de entrada como:
```
{
"audio_url": "生成的音频路径",
"video_url": "D:/heygem_data/face2face/sample.mp4",
"code": "unique-uuid",
"chaofen": 0,
"watermark_switch": 0,
"pn": 1
}
```
- Infórmese sobre los progresos:http://127.0.0.1:8383/easy/query?code=unique-uuid.
Guardar resultados
- Al finalizar, el archivo de vídeo se guarda localmente en la ruta especificada.

3. Producción de vídeo vocal

grabar voz
- Grabe su voz en el cliente o cargue archivos WAV directamente en el D:\heygem_data\voice\data.
Generar vídeo
- Llama a las API de composición de audio y vídeo anteriores para generar un vídeo de avatar con acciones.
Previsualización y ajuste
- El efecto se previsualiza a través del cliente y puede regenerarse tras ajustar los parámetros.

Trucos y consejos

necesidad de materialLas fotografías deben tener una iluminación uniforme y la voz no debe tener ruido.
Soporte multilingüe: establecido en los parámetros de la API lang es el código del idioma correspondiente (por ejemplo, "zh" para el chino).
Asistencia para desarrolladores: Referencia src/main/service Bajo el código, personaliza la funcionalidad.

advertencia

El sistema debe cumplir los requisitos de espacio de 100 GB para la unidad C y 30 GB para la unidad D.
Asegúrese de que WSL está activado antes de instalar Docker.
Se requieren 70 GB de tráfico para descargar la imagen. Se recomienda WiFi estable.