Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1

HeyGem: Produto de almofada de alfinetes humana digital Heygen de código aberto da Silicon Intelligence

Introdução geral

O HeyGem é uma ferramenta de composição de vídeo totalmente off-line para Windows, desenvolvida pela equipe do GuijiAI e de código aberto no GitHub. Ela usa algoritmos avançados de IA para clonar com precisão a aparência e a voz de um usuário para criar avatares realistas e oferecer suporte a vídeos personalizados acionados por texto ou voz. A ferramenta não precisa estar conectada à Internet, todas as operações são feitas localmente para garantir a privacidade e a segurança do usuário. O HeyGem oferece suporte a scripts em vários idiomas (incluindo inglês, japonês, coreano, chinês e outros oito idiomas), interface simples e intuitiva, adequada para usuários sem formação técnica para começar rapidamente, e fornece uma API aberta, que é conveniente para os desenvolvedores ampliarem a funcionalidade. Há alguns meses, a Silicon Intelligence abriu a versão móvel de código aberto da pessoa digital DUIX: pessoas digitais inteligentes para interação em tempo real, com suporte à implantação multiplataforma com um clique.

HeyGem: Projeto de almofada de alfinetes humana digital Heygen de código aberto da Silicon Intelligence-1

Endereço oficial de download do HeyGem: https://heygem.ai/


 

Lista de funções

  • Clonagem precisa de aparência e vozA tecnologia de IA captura características faciais e detalhes vocais para gerar avatares e vozes de alta fidelidade com suporte para ajuste de parâmetros.
  • Imagem virtual baseada em textoO avatar é um personagem de uma família: depois que o texto é inserido, a ferramenta gera automaticamente uma fala natural e aciona o avatar por meio de sincronização labial e movimentos de expressão.
  • Produção de vídeo orientada por vozGerar vídeos dinâmicos controlando o tom e o ritmo do avatar por meio da entrada de voz do usuário.
  • Operação totalmente off-lineNão é necessária nenhuma conexão de rede e todos os dados são processados localmente para garantir a privacidade e a segurança.
  • Suporte a vários idiomasScripts de oito idiomas são suportados: inglês, japonês, coreano, chinês, francês, alemão, árabe e espanhol.
  • Composição eficiente de vídeoOtimização inteligente da sincronização de áudio e vídeo para garantir uma combinação natural entre o formato dos lábios e a voz.
  • Interface de API de código abertoAPIs para treinamento de modelos e composição de vídeo, com recursos personalizáveis para desenvolvedores.

 

Usando a Ajuda

Processo de instalação

O processo de instalação a seguir segue rigorosamente as instruções oficiais, mantendo o texto original e os endereços das imagens:

Pré-requisitos

  1. Deve ter o disco DArmazenamento de imagens digitais e dados de projetos: Principalmente para armazenar imagens digitais e dados de projetos
    • Requisito de espaço livre: mais de 30 GB
  2. Disco CUsado para armazenar arquivos de imagem de serviço
    • Requisito de espaço livre: mais de 100 GB
    • Se você tiver menos de 100 GB de espaço livre, depois de instalar o Docker, poderá selecionar uma pasta em um disco com mais de 100 GB de espaço livre no local mostrado abaixo:
      HeyGem: projeto pinto de código aberto da Heygen para pessoas digitais-1
  3. Requisitos do sistema::
    • Atualmente, é compatível com o Windows 10 19042.1526 ou posterior
  4. Configurações recomendadas::
    • CPU: Intel Core i5-13400F de 13ª geração
    • Memória: 32 GB
    • Placa de vídeo: RTX-4070
  5. Certifique-se de que você tenha uma placa de vídeo NVIDIA e que os drivers estejam instalados corretamente.
    • Link para download do driver NVIDIA: https://www.nvidia.cn/drivers/lookup/
      HeyGem: Projeto pinto de código aberto da Heygen para pessoas digitais -2

Instalação do Windows Docker

  1. Usando comandos wsl --list --verbose Verifique se a WSL está instalada. A figura a seguir mostra que ela está instalada e não precisa ser reinstalada:
    HeyGem: projeto pinto de código aberto da Heygen para pessoas digitais-3

    • Comandos de instalação da WSL:wsl --install
    • Pode falhar devido a problemas de rede, tente várias vezes
    • É necessário configurar e lembrar um novo nome de usuário e senha durante o processo de instalação
  2. fazer uso de wsl --update Atualização da WSL:
    HeyGem: projeto pinto de código aberto da Heygen para pessoas digitais-4
  3. Faça o download do Docker para Windows e escolha um instalador adequado à arquitetura de sua CPU.
  4. Essa tela indica que a instalação foi bem-sucedida:
    HeyGem: Projeto pinto de código aberto da Heygen para pessoas digitais -5
  5. Executar o Docker:
    HeyGem: Projeto pinto de código aberto da Heygen para pessoas digitais -6
  6. Aceita o protocolo e ignora o login na primeira execução:
    HeyGem: projeto pinto de código aberto da Heygen para pessoas digitais-7
    HeyGem: Projeto pinto de código aberto da Heygen para pessoas digitais -8
    HeyGem: projeto pinto de código aberto da Heygen para pessoas digitais-9

Instalação do servidor

Instale o seguinte usando o Docker e o docker-compose:

  1. docker-compose.yml O arquivo está localizado no diretório /deploy Catálogo.
  2. existir /deploy para executar o docker-compose up -d.
  3. Aguarde pacientemente (cerca de meia hora, dependendo da velocidade da Internet); o download consumirá cerca de 70 GB de tráfego; certifique-se de usar o WiFi.
  4. O sucesso é indicado quando três serviços são vistos no Docker:
    HeyGem: projeto pinto de código aberto da Heygen para pessoas digitais-10

Cliente

  1. Script de construção npm run build:winApós a execução, ele estará no diretório dist Geração de catálogos HeyGem-1.0.0-setup.exe.
  2. clique duas vezes HeyGem-1.0.0-setup.exe Realize a instalação.

Dependências

  1. Nodejs 18
  2. Imagem do Docker:
    • docker pull guiji2025/fun-asr:1.0.1
    • docker pull guiji2025/fish-speech-ziming:1.0.39
    • docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

Funções principais

1. clonagem de aparência e voz

  • Preparar o material
    • Grave uma voz clara (10 a 30 segundos no formato WAV) e coloque-a no D:\heygem_data\voice\data.
    • Tire uma foto de alta resolução da frente e coloque-a no arquivo D:\heygem_data\face2face(Os caminhos podem ser encontrados na seção docker-compose.yml (Ajustado em).
  • Execução da função clone
    • Inicie o cliente, abra a interface e selecione "Model Training".
    • Chamando a API http://127.0.0.1:18180/v1/preprocess_and_tranparâmetros de entrada, como:
      {
      "formato": ".wav",
      "reference_audio": "D:/heygem_data/voice/data/sample.wav",
      "lang": "zh"
      }
      
    • Obtenha os resultados retornados (por exemplo, caminho de áudio e texto) e salve-os para uso posterior.

2. imagens virtuais orientadas por texto

  • texto de entrada
    • Selecione "Audio Synthesis" (Síntese de áudio) na interface do cliente e chame a API. http://127.0.0.1:18180/v1/invokeparâmetros de entrada, como:
      {
      "alto-falante": "unique-uuid".
      "text": "Bem-vindo à experiência do HeyGem.ai",
      "formato": "wav",
      "topP": 0,7, "max_new_tokens".
      
      
      
      "temperature": 0,7, "need_asr": false_asr": false_asr
      
      "streaming": false, "is_fixed_select": false, "is_fixed_select": false
      "is_fixed_seed": 0, "is_norm": 0, "is_fixed_seed": 0, "is_norm": 0
      
      "reference_audio": "Caminho de áudio retornado",
      "reference_text": "Returned text" (texto retornado)
      }
      
  • Gerar vídeo
    • Uso da interface de síntese http://127.0.0.1:8383/easy/submitparâmetros de entrada, como:
      {
      "audio_url": "Caminho para o áudio gerado",
      "video_url": "D:/heygem_data/face2face/sample.mp4",
      "code": "unique-uuid",
      "chaofen": 0, "watermark_switch".
      "watermark_switch": 0,
      "pn": 1
      }
      
    • Informe-se sobre o progresso:http://127.0.0.1:8383/easy/query?code=unique-uuid.
  • Salvar resultados
    • Quando terminar, o arquivo de vídeo será salvo localmente no caminho especificado.

3. produção de vídeo orientada por voz

  • gravar voz
    • Grave sua voz no cliente ou carregue arquivos WAV diretamente no D:\heygem_data\voice\data.
  • Gerar vídeo
    • Chame as APIs de composição de áudio e vídeo acima para gerar um vídeo de avatar com ações.
  • Visualização e ajuste
    • O efeito é visualizado por meio do cliente e pode ser gerado novamente após o ajuste dos parâmetros.

Dicas e truques

  • Requisito de materialFoto: As fotografias precisam ser iluminadas de maneira uniforme e a fala precisa estar livre de ruídos.
  • Suporte a vários idiomas: definido nos parâmetros da API lang é o código do idioma correspondente (por exemplo, "zh" para chinês).
  • Suporte ao desenvolvedor: Referência src/main/service Sob o código, personalize a funcionalidade.

advertência

  • O sistema precisa atender aos requisitos de espaço de 100 GB para a unidade C e 30 GB para a unidade D.
  • Certifique-se de que a WSL esteja ativada antes de instalar o Docker.
  • São necessários 70 GB de tráfego para fazer o download da imagem. Recomenda-se o uso de uma rede WiFi estável.
CDN1
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " HeyGem: Produto de almofada de alfinetes humana digital Heygen de código aberto da Silicon Intelligence

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil