Aprendizagem pessoal com IA
e orientação prática

UltraLight Digital Human: humano digital ultraleve de código aberto com execução em tempo real no lado final e pacote de instalação com um clique

Introdução geral

O Ultralight Digital Human é um projeto de código aberto que visa desenvolver um modelo humano digital ultraleve que possa ser executado em tempo real em dispositivos móveis. O projeto consegue uma operação suave em dispositivos móveis otimizando algoritmos e estruturas de modelos para uma variedade de cenários, como aplicativos sociais, jogos e realidade virtual. Os usuários podem facilmente treinar e implementar seus próprios modelos humanos digitais para desfrutar de experiências personalizadas e imersivas.

Quanto ao fato de que ele funciona bem no celular, basta alterar o número de canais desse modelo atual para um pouco menor e usar o wenet para os recursos de áudio, e tudo ficará bem.


UltraLight Digital Human: um modelo humano digital ultraleve que funciona em tempo real em dispositivos móveis-1

 

Lista de funções

  • operação em tempo realModelos: Os modelos podem ser executados em tempo real em dispositivos móveis e são responsivos.
  • Design leveEstrutura de modelo otimizada para dispositivos móveis com recursos limitados.
  • projeto de código abertoCódigo-fonte: O código e o modelo são totalmente abertos e podem ser modificados e usados livremente pelos usuários.
  • aplicativo com vários cenáriosAdequado para uma variedade de cenários, como aplicativos sociais, jogos, realidade virtual e muito mais.
  • Extração de recursos de áudioSuporte a esquemas de extração de recursos de áudio wenet e hubert.
  • rede síncronaSincronização labial aprimorada com a tecnologia syncnet.
  • Tutorial detalhadoTreinamento detalhado e tutoriais de uso são fornecidos para ajudar os usuários a começar rapidamente.

 

Usando a Ajuda

Processo de instalação

  1. Preparação ambiental::
    • Instale o Python 3.10 ou superior.
    • Instale o PyTorch 1.13.1 e outras dependências:
      conda create -n dh python=3.10
      conda activate dh
      conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
      conda install mkl=2024.0
      pip install opencv-python transformers numpy==1.23.5 soundfile librosa onnxruntime
      
  2. Baixar arquivos de modelo::
    • Faça o download do arquivo wenet encoder.onnx no link a seguir e coloque-o no diretório dados_utils/ Catálogo: link para download

Processo de uso

  1. Preparar o vídeo::
    • Prepare um vídeo de 3 a 5 minutos, certificando-se de que cada quadro tenha uma exposição facial completa e que o som esteja claro e sem ruídos.
    • Coloque o vídeo em uma nova pasta.
  2. Extração de recursos de áudio::
    • Use os seguintes comandos para extrair recursos de áudio:
      cd data_utils
      python process.py SEU_VIDEO_PATH --asr hubert
      
  3. Modelos de treinamento::
    • Treine o modelo syncnet para obter melhores resultados:
      cd ...
      python syncnet.py ---save_dir . /syncnet_ckpt/ --dataset_dir . /data_dir/ --asr hubert
      
    • Treine o modelo humano digital usando o ponto de verificação de menor perda:
      python train.py --dataset_dir . /data_dir/ ---save_dir . /checkpoint/ --asr hubert --use_syncnet --syncnet_checkpoint syncnet_ckpt
      
  4. inferência::
    • Extração de recursos de áudio de teste:
      python extract_test_audio.py YOUR_TEST_AUDIO_PATH --asr hubert
      
    • Raciocínio em execução:
      python inference.py --dataset . /data_dir/ --audio_feat . /seu_teste_audio_hu.npy ---save_path . /output.mp4 --checkpoint . /checkpoint/best_model.pth
      

advertência

  • Certifique-se de que a taxa de quadros do vídeo corresponda ao esquema de extração de recursos de áudio escolhido: 20 fps para wenet e 25 fps para hubert.
  • Durante o processo de treinamento e inferência, o valor de perda do modelo é monitorado regularmente e o ponto de verificação ideal é selecionado para o treinamento.

 

Pacote de integração do Monkey One Click

Chefe do Círculo de Compartilhamento de IAEste conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo
Captcha:
Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " UltraLight Digital Human: humano digital ultraleve de código aberto com execução em tempo real no lado final e pacote de instalação com um clique

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil