HeyGem: el cojín digital humano de código abierto Heygen de Silicon Intelligence
Últimos recursos sobre IAActualizado hace 2 meses Círculo de intercambio de inteligencia artificial 3.6K 00
Introducción general
HeyGem es una herramienta de composición de vídeo totalmente offline para Windows, desarrollada por el equipo GuijiAI y de código abierto en GitHub. Utiliza algoritmos avanzados de IA para clonar con precisión el aspecto y la voz de un usuario y crear avatares realistas, y permite crear vídeos personalizados mediante texto o voz. La herramienta no necesita estar conectada a Internet, todas las operaciones se realizan localmente para garantizar la privacidad y seguridad del usuario. HeyGem admite escritura en varios idiomas (incluidos inglés, japonés, coreano, chino y otros ocho idiomas), interfaz sencilla e intuitiva, adecuada para que los usuarios sin conocimientos técnicos puedan empezar a utilizarla rápidamente, y proporciona una API abierta, lo que resulta cómodo para que los desarrolladores amplíen las funcionalidades. Hace unos meses, Silicon Intelligence lanzó la versión móvil de código abierto de la persona digital DUIX: personas digitales inteligentes e interactivas en tiempo real con soporte de despliegue multiplataforma con un solo clic.

Dirección oficial de descarga de HeyGem: https://heygem.ai/
Lista de funciones
- Clonación precisa del aspecto y la voz: La tecnología de IA captura los rasgos faciales y los detalles vocales para generar avatares y voces de alta fidelidad con soporte para el ajuste de parámetros.
- Imágenes virtuales basadas en textoLa herramienta, una vez introducido el texto, genera automáticamente un habla natural y dirige el avatar mediante la sincronización de los labios y los movimientos de expresión.
- Producción de vídeo con voz: Genera vídeos dinámicos controlando el tono y el ritmo del avatar mediante la voz del usuario.
- Funcionamiento totalmente offlineNo se requiere conexión a la red y todos los datos se procesan localmente para mayor privacidad y seguridad.
- Soporte multilingüeCompatible con ocho idiomas: inglés, japonés, coreano, chino, francés, alemán, árabe y español.
- Composición eficaz de vídeo: La optimización inteligente de la sincronización de audio y vídeo garantiza una correspondencia natural entre la forma de los labios y la voz.
- Interfaz API de código abierto: Proporciona API para la formación de modelos y la composición de vídeo, con funciones personalizables para los desarrolladores.
Utilizar la ayuda
Proceso de instalación
El siguiente proceso de instalación sigue estrictamente las instrucciones oficiales, conservando el texto original y las direcciones de las imágenes:
Requisitos previos
- Debe tener el disco D.: Principalmente para almacenar imágenes digitales y datos de proyectos
- Espacio libre necesario: más de 30 GB
- Disco C: Se utiliza para almacenar archivos de imagen de servicio
- Espacio libre necesario: más de 100 GB
- Si tiene menos de 100 GB de espacio libre, después de instalar Docker, puede seleccionar una carpeta en un disco con más de 100 GB de espacio libre en la ubicación que se muestra a continuación:
- requisitos del sistema::
- Actualmente compatible con Windows 10 19042.1526 o posterior
- Configuraciones recomendadas::
- CPU: Intel Core i5-13400F de 13ª generación
- Memoria: 32 GB
- Tarjeta gráfica: RTX-4070
- Asegúrate de que tienes una tarjeta gráfica NVIDIA y de que los controladores están instalados correctamente.
- Enlace de descarga del controlador NVIDIA: https://www.nvidia.cn/drivers/lookup/
- Enlace de descarga del controlador NVIDIA: https://www.nvidia.cn/drivers/lookup/
Instalación de Windows Docker
- Uso de comandos
wsl --list --verbose
Compruebe que WSL está instalado. la siguiente figura muestra que está instalado y no es necesario volver a instalarlo:- Comandos de instalación de WSL:
wsl --install
- Puede fallar debido a problemas de red, por favor inténtelo varias veces
- Es necesario configurar y recordar un nuevo nombre de usuario y contraseña durante el proceso de instalación.
- Comandos de instalación de WSL:
- utilizar
wsl --update
Actualizar WSL: - Descarga Docker para Windows y elige un instalador que se adapte a la arquitectura de tu CPU.
- Esta pantalla indica que la instalación se ha realizado correctamente:
- Ejecuta Docker:
- Acepta el protocolo y omite el inicio de sesión en la primera ejecución:
Instalación del servidor
Instale lo siguiente utilizando Docker y docker-compose:
docker-compose.yml
El archivo se encuentra en la carpeta/deploy
Catálogo.- existe
/deploy
para ejecutar el programadocker-compose up -d
. - Espera pacientemente (alrededor de media hora, dependiendo de la velocidad de Internet), la descarga consumirá alrededor de 70GB de tráfico, por favor asegúrate de usar WiFi.
- El éxito se indica cuando se ven tres servicios en Docker:
Cliente
- Guión de construcción
npm run build:win
Tras la ejecución, estará en eldist
Generación de catálogosHeyGem-1.0.0-setup.exe
. - doble clic
HeyGem-1.0.0-setup.exe
Realiza la instalación.
Dependencias
- Nodejs 18
- Imagen Docker:
docker pull guiji2025/fun-asr:1.0.1
docker pull guiji2025/fish-speech-ziming:1.0.39
docker pull guiji2025/heygem.ai:0.0.7_sdk_slim
Funciones principales
1. Apariencia y clonación de la voz
- Preparar el material
- Grabe una voz clara (10-30 segundos en formato WAV) y póngala en el
D:\heygem_data\voice\data
. - Tome una foto de alta resolución del anverso y colóquela en el
D:\heygem_data\face2face
(Las rutas se encuentran endocker-compose.yml
(Ajustado en).
- Grabe una voz clara (10-30 segundos en formato WAV) y póngala en el
- Ejecución de la función clonar
- Inicie el cliente, abra la interfaz y seleccione "Model Training".
- Llamada a la API
http://127.0.0.1:18180/v1/preprocess_and_tran
parámetros de entrada como:{ "format": ".wav", "reference_audio": "D:/heygem_data/voice/data/sample.wav", "lang": "zh" }
- Obtener los resultados devueltos (por ejemplo, ruta de audio y texto) y guardarlos para su uso posterior.
2. Imágenes virtuales basadas en texto
- texto introducido
- Selecciona "Síntesis de audio" en la interfaz de cliente y llama a la API.
http://127.0.0.1:18180/v1/invoke
parámetros de entrada como:{ "speaker": "unique-uuid", "text": "欢迎体验 HeyGem.ai", "format": "wav", "topP": 0.7, "max_new_tokens": 1024, "chunk_length": 100, "repetition_penalty": 1.2, "temperature": 0.7, "need_asr": false, "streaming": false, "is_fixed_seed": 0, "is_norm": 0, "reference_audio": "返回的音频路径", "reference_text": "返回的文本" }
- Selecciona "Síntesis de audio" en la interfaz de cliente y llama a la API.
- Generar vídeo
- Uso de la interfaz de síntesis
http://127.0.0.1:8383/easy/submit
parámetros de entrada como:{ "audio_url": "生成的音频路径", "video_url": "D:/heygem_data/face2face/sample.mp4", "code": "unique-uuid", "chaofen": 0, "watermark_switch": 0, "pn": 1 }
- Infórmese sobre los progresos:
http://127.0.0.1:8383/easy/query?code=unique-uuid
.
- Uso de la interfaz de síntesis
- Guardar resultados
- Al finalizar, el archivo de vídeo se guarda localmente en la ruta especificada.
3. Producción de vídeo vocal
- grabar voz
- Grabe su voz en el cliente o cargue archivos WAV directamente en el
D:\heygem_data\voice\data
.
- Grabe su voz en el cliente o cargue archivos WAV directamente en el
- Generar vídeo
- Llama a las API de composición de audio y vídeo anteriores para generar un vídeo de avatar con acciones.
- Previsualización y ajuste
- El efecto se previsualiza a través del cliente y puede regenerarse tras ajustar los parámetros.
Trucos y consejos
- necesidad de materialLas fotografías deben tener una iluminación uniforme y la voz no debe tener ruido.
- Soporte multilingüe: establecido en los parámetros de la API
lang
es el código del idioma correspondiente (por ejemplo, "zh" para el chino). - Asistencia para desarrolladores: Referencia
src/main/service
Bajo el código, personaliza la funcionalidad.
advertencia
- El sistema debe cumplir los requisitos de espacio de 100 GB para la unidad C y 30 GB para la unidad D.
- Asegúrese de que WSL está activado antes de instalar Docker.
- Se requieren 70 GB de tráfico para descargar la imagen. Se recomienda WiFi estable.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...