HeyGem: el cojín digital humano de código abierto Heygen de Silicon Intelligence

Introducción general

HeyGem es una herramienta de composición de vídeo totalmente offline para Windows, desarrollada por el equipo GuijiAI y de código abierto en GitHub. Utiliza algoritmos avanzados de IA para clonar con precisión el aspecto y la voz de un usuario y crear avatares realistas, y permite crear vídeos personalizados mediante texto o voz. La herramienta no necesita estar conectada a Internet, todas las operaciones se realizan localmente para garantizar la privacidad y seguridad del usuario. HeyGem admite escritura en varios idiomas (incluidos inglés, japonés, coreano, chino y otros ocho idiomas), interfaz sencilla e intuitiva, adecuada para que los usuarios sin conocimientos técnicos puedan empezar a utilizarla rápidamente, y proporciona una API abierta, lo que resulta cómodo para que los desarrolladores amplíen las funcionalidades. Hace unos meses, Silicon Intelligence lanzó la versión móvil de código abierto de la persona digital DUIX: personas digitales inteligentes e interactivas en tiempo real con soporte de despliegue multiplataforma con un solo clic.

HeyGem:硅基智能开源的 Heygen 数字人平替产品

Dirección oficial de descarga de HeyGem: https://heygem.ai/

 

Lista de funciones

  • Clonación precisa del aspecto y la voz: La tecnología de IA captura los rasgos faciales y los detalles vocales para generar avatares y voces de alta fidelidad con soporte para el ajuste de parámetros.
  • Imágenes virtuales basadas en textoLa herramienta, una vez introducido el texto, genera automáticamente un habla natural y dirige el avatar mediante la sincronización de los labios y los movimientos de expresión.
  • Producción de vídeo con voz: Genera vídeos dinámicos controlando el tono y el ritmo del avatar mediante la voz del usuario.
  • Funcionamiento totalmente offlineNo se requiere conexión a la red y todos los datos se procesan localmente para mayor privacidad y seguridad.
  • Soporte multilingüeCompatible con ocho idiomas: inglés, japonés, coreano, chino, francés, alemán, árabe y español.
  • Composición eficaz de vídeo: La optimización inteligente de la sincronización de audio y vídeo garantiza una correspondencia natural entre la forma de los labios y la voz.
  • Interfaz API de código abierto: Proporciona API para la formación de modelos y la composición de vídeo, con funciones personalizables para los desarrolladores.

 

Utilizar la ayuda

Proceso de instalación

El siguiente proceso de instalación sigue estrictamente las instrucciones oficiales, conservando el texto original y las direcciones de las imágenes:

Requisitos previos

  1. Debe tener el disco D.: Principalmente para almacenar imágenes digitales y datos de proyectos
    • Espacio libre necesario: más de 30 GB
  2. Disco C: Se utiliza para almacenar archivos de imagen de servicio
    • Espacio libre necesario: más de 100 GB
    • Si tiene menos de 100 GB de espacio libre, después de instalar Docker, puede seleccionar una carpeta en un disco con más de 100 GB de espacio libre en la ubicación que se muestra a continuación:
      HeyGem:硅基智能开源的 Heygen 数字人平替产品
  3. requisitos del sistema::
    • Actualmente compatible con Windows 10 19042.1526 o posterior
  4. Configuraciones recomendadas::
    • CPU: Intel Core i5-13400F de 13ª generación
    • Memoria: 32 GB
    • Tarjeta gráfica: RTX-4070
  5. Asegúrate de que tienes una tarjeta gráfica NVIDIA y de que los controladores están instalados correctamente.
    • Enlace de descarga del controlador NVIDIA: https://www.nvidia.cn/drivers/lookup/
      HeyGem:硅基智能开源的 Heygen 数字人平替产品

Instalación de Windows Docker

  1. Uso de comandos wsl --list --verbose Compruebe que WSL está instalado. la siguiente figura muestra que está instalado y no es necesario volver a instalarlo:
    HeyGem:硅基智能开源的 Heygen 数字人平替产品

    • Comandos de instalación de WSL:wsl --install
    • Puede fallar debido a problemas de red, por favor inténtelo varias veces
    • Es necesario configurar y recordar un nuevo nombre de usuario y contraseña durante el proceso de instalación.
  2. utilizar wsl --update Actualizar WSL:
    HeyGem:硅基智能开源的 Heygen 数字人平替产品
  3. Descarga Docker para Windows y elige un instalador que se adapte a la arquitectura de tu CPU.
  4. Esta pantalla indica que la instalación se ha realizado correctamente:
    HeyGem:硅基智能开源的 Heygen 数字人平替产品
  5. Ejecuta Docker:
    HeyGem:硅基智能开源的 Heygen 数字人平替产品
  6. Acepta el protocolo y omite el inicio de sesión en la primera ejecución:
    HeyGem:硅基智能开源的 Heygen 数字人平替产品
    HeyGem:硅基智能开源的 Heygen 数字人平替产品
    HeyGem:硅基智能开源的 Heygen 数字人平替产品

Instalación del servidor

Instale lo siguiente utilizando Docker y docker-compose:

  1. docker-compose.yml El archivo se encuentra en la carpeta /deploy Catálogo.
  2. existe /deploy para ejecutar el programa docker-compose up -d.
  3. Espera pacientemente (alrededor de media hora, dependiendo de la velocidad de Internet), la descarga consumirá alrededor de 70GB de tráfico, por favor asegúrate de usar WiFi.
  4. El éxito se indica cuando se ven tres servicios en Docker:
    HeyGem:硅基智能开源的 Heygen 数字人平替产品

Cliente

  1. Guión de construcción npm run build:winTras la ejecución, estará en el dist Generación de catálogos HeyGem-1.0.0-setup.exe.
  2. doble clic HeyGem-1.0.0-setup.exe Realiza la instalación.

Dependencias

  1. Nodejs 18
  2. Imagen Docker:
    • docker pull guiji2025/fun-asr:1.0.1
    • docker pull guiji2025/fish-speech-ziming:1.0.39
    • docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

Funciones principales

1. Apariencia y clonación de la voz

  • Preparar el material
    • Grabe una voz clara (10-30 segundos en formato WAV) y póngala en el D:\heygem_data\voice\data.
    • Tome una foto de alta resolución del anverso y colóquela en el D:\heygem_data\face2face(Las rutas se encuentran en docker-compose.yml (Ajustado en).
  • Ejecución de la función clonar
    • Inicie el cliente, abra la interfaz y seleccione "Model Training".
    • Llamada a la API http://127.0.0.1:18180/v1/preprocess_and_tranparámetros de entrada como:
      {
      "format": ".wav",
      "reference_audio": "D:/heygem_data/voice/data/sample.wav",
      "lang": "zh"
      }
      
    • Obtener los resultados devueltos (por ejemplo, ruta de audio y texto) y guardarlos para su uso posterior.

2. Imágenes virtuales basadas en texto

  • texto introducido
    • Selecciona "Síntesis de audio" en la interfaz de cliente y llama a la API. http://127.0.0.1:18180/v1/invokeparámetros de entrada como:
      {
      "speaker": "unique-uuid",
      "text": "欢迎体验 HeyGem.ai",
      "format": "wav",
      "topP": 0.7,
      "max_new_tokens": 1024,
      "chunk_length": 100,
      "repetition_penalty": 1.2,
      "temperature": 0.7,
      "need_asr": false,
      "streaming": false,
      "is_fixed_seed": 0,
      "is_norm": 0,
      "reference_audio": "返回的音频路径",
      "reference_text": "返回的文本"
      }
      
  • Generar vídeo
    • Uso de la interfaz de síntesis http://127.0.0.1:8383/easy/submitparámetros de entrada como:
      {
      "audio_url": "生成的音频路径",
      "video_url": "D:/heygem_data/face2face/sample.mp4",
      "code": "unique-uuid",
      "chaofen": 0,
      "watermark_switch": 0,
      "pn": 1
      }
      
    • Infórmese sobre los progresos:http://127.0.0.1:8383/easy/query?code=unique-uuid.
  • Guardar resultados
    • Al finalizar, el archivo de vídeo se guarda localmente en la ruta especificada.

3. Producción de vídeo vocal

  • grabar voz
    • Grabe su voz en el cliente o cargue archivos WAV directamente en el D:\heygem_data\voice\data.
  • Generar vídeo
    • Llama a las API de composición de audio y vídeo anteriores para generar un vídeo de avatar con acciones.
  • Previsualización y ajuste
    • El efecto se previsualiza a través del cliente y puede regenerarse tras ajustar los parámetros.

Trucos y consejos

  • necesidad de materialLas fotografías deben tener una iluminación uniforme y la voz no debe tener ruido.
  • Soporte multilingüe: establecido en los parámetros de la API lang es el código del idioma correspondiente (por ejemplo, "zh" para el chino).
  • Asistencia para desarrolladores: Referencia src/main/service Bajo el código, personaliza la funcionalidad.

advertencia

  • El sistema debe cumplir los requisitos de espacio de 100 GB para la unidad C y 30 GB para la unidad D.
  • Asegúrese de que WSL está activado antes de instalar Docker.
  • Se requieren 70 GB de tráfico para descargar la imagen. Se recomienda WiFi estable.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...