JoyHallo - Modelo humano digital de IA de código aberto da Jingdong

O que é JoyHallo?

O JoyHallo é um modelo humano digital de IA de código aberto da Jingdong, projetado para mandarim, que oferece suporte à conversão de áudio em vídeos de fala realistas. O JoyHallo incorpora recursos de áudio com base no modelo wav2vec2 com uma estrutura semidesacoplada para melhorar a precisão da previsão do movimento labial e oferecer suporte à geração de vídeos em inglês. O JoyHallo tem uma ampla gama de aplicações nas áreas de âncora virtual, educação on-line, atendimento ao cliente e produção de anúncios, o que pode proporcionar uma experiência de serviço eficiente, vívida e personalizada e promover o desenvolvimento inteligente de setores relacionados.

JoyHallo - 京东开源的AI数字人模型

Principais recursos do JoyHallo

  • Geração de vídeo com base em áudioCom base no sinal de áudio recebido, gera automaticamente um vídeo falado que corresponde a ele.
  • Capacidade geradora entre idiomasJoyHallo: Além de se especializar na geração de vídeos em mandarim, a JoyHallo pode gerar vídeos em inglês.
  • Sincronização labialO modelo sincroniza com precisão os movimentos labiais em áudio e vídeo.
  • Geração de expressões faciaisGeração de expressões faciais apropriadas com base na emoção e no tom de voz do áudio.

Endereço do site oficial da JoyHallo

Como usar o JoyHallo

  • Preparação ambiental::
    • Requisitos de hardwareRecomendamos o uso de computadores com GPUs de alto desempenho, como placas de vídeo da série NVIDIA (por exemplo, série RTX 30 ou superior), para acelerar o processo de inferência do modelo.
    • ambiente de softwareVerifique se o Python está instalado em seu sistema (versão recomendada 3.8 e superior). Instale o PyTorch com base no seguinte comando (escolha o comando de instalação apropriado de acordo com a versão do CUDA):
pip install torch torchvision torchaudio
  • Instalação de dependências::
    • Clonagem do repositório GitHub do JoyHallo::
git clone https://github.com/jdh-algo/JoyHallo.git
cd JoyHallo
    • Instalar as dependências do projeto::
pip install -r requirements.txt
  • Preparação de dadosSe você usar seus próprios dados para treinamento ou ajuste fino, precisará preparar os dados de acordo com o formato de dados do JoyHallo. Os arquivos de áudio precisam estar no formato wav e os arquivos de vídeo precisam estar no formato mp4. Se você estiver usando apenas o modelo pré-treinado para inferência, pule esta etapa diretamente.
  • Carregamento e inferência de modelos::
    • Carregamento de modelos pré-treinadosModelos pré-treinados do JoyHallo: os modelos pré-treinados do JoyHallo são carregados com base na biblioteca de modelos Hugging Face.
from transformers import AutoModelForAudioToVideo, AutoProcessor

model_name = "jdh-algo/JoyHallo-v1"
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForAudioToVideo.from_pretrained(model_name)
    • Pré-processamento de áudio: converte arquivos de áudio para o formato exigido pelo modelo::
from datasets import load_dataset

dataset = load_dataset("audiofolder", data_dir="path/to/your/audio/files")
inputs = processor(dataset[0]["audio"], return_tensors="pt")
    • Gerar vídeoRaciocínio com modelos para gerar vídeos:
outputs = model(**inputs)
video = processor.postprocess_video(outputs)
video.save("output_video.mp4")

Principais pontos fortes do JoyHallo

  • Otimização do mandarimJoyHallo foi projetado para mandarim e pode combinar com precisão os movimentos labiais para simular com exatidão os sons complexos de vogais e rimas em mandarim, como "zh", "ch", "sh zh", "ch", "sh", etc. Ele suporta a geração de expressões faciais ricas com base nas emoções e entonações do áudio, tornando o vídeo mais contagiante.
  • competência multilíngueO JoyHallo tem a capacidade de gerar vídeos em inglês, além de mandarim, e suporta cenários de aplicativos em vários idiomas, como atendimento ao cliente para empresas multinacionais, educação internacional etc., o que tem uma ampla gama de aplicabilidade.
  • Estruturas eficientesBaseado em uma estrutura semidesacoplada, os processos de incorporação de recursos de áudio e de geração de vídeo são separados, o que melhora significativamente a velocidade de inferência, que é 14,31 TP3T mais rápida do que o modelo tradicional totalmente acoplado.
  • Cenários de aplicativos avançadosJoyHallo é aplicável a uma ampla gama de setores e cenários, incluindo âncora virtual (transmissão de notícias, previsão do tempo, comentários de eventos esportivos), educação on-line (aprendizado de idiomas, cursos on-line), atendimento ao cliente (representante virtual de atendimento ao cliente) e outros cenários.
  • recurso de código abertoDescrição: fornecer um conjunto de dados de código aberto (conjunto de dados jdh-Hallo) contendo conjuntos de dados de vídeo em mandarim de várias idades e estilos de fala, abrangendo conversas cotidianas e tópicos médicos profissionais. O projeto fornece métodos detalhados de treinamento de modelos e código para facilitar a personalização e a otimização dos desenvolvedores.

Para quem é o JoyHallo

  • criador de conteúdoO sistema de vídeo da Microsoft é um recurso de alta qualidade que permite aos produtores de vídeo e especialistas em mídia social gerar rapidamente conteúdo de vídeo personalizado de alta qualidade, economizando tempo e custos e aumentando o apelo do conteúdo.
  • educadorGeração de imagens de professores virtuais para plataformas de educação on-line, escolas e instituições de treinamento para enriquecer os recursos de ensino e proporcionar uma experiência de ensino vívida.
  • Empresas e marcasDepartamentos corporativos de atendimento ao cliente geram representantes virtuais de atendimento ao cliente para aumentar a satisfação com o serviço; equipes de marketing criam vídeos publicitários personalizados para aumentar o apelo da publicidade.
  • Profissionais do setor de entretenimentoO objetivo é melhorar a eficiência da produção, reduzir os custos de produção e aprimorar a imersão e o realismo do trabalho.
  • Pesquisadores e desenvolvedoresPesquisadores de inteligência artificial e desenvolvedores de software realizam pesquisa e desenvolvimento para promover o avanço tecnológico e expandir os cenários de aplicação.
© declaração de direitos autorais

Artigos relacionados

Sem comentários

Você precisa estar conectado para participar dos comentários!
Faça login agora
nenhum
Nenhum comentário...