JoyHallo - Modelo humano digital de IA de código aberto da Jingdong

Recursos mais recentes de IAPublicado há 3 meses Círculo de compartilhamento de IA

10.2K 00

O que é JoyHallo?

O JoyHallo é um modelo humano digital de IA de código aberto da Jingdong, projetado para mandarim, que oferece suporte à conversão de áudio em vídeos de fala realistas. O JoyHallo incorpora recursos de áudio com base no modelo wav2vec2 com uma estrutura semidesacoplada para melhorar a precisão da previsão do movimento labial e oferecer suporte à geração de vídeos em inglês. O JoyHallo tem uma ampla gama de aplicações nas áreas de âncora virtual, educação on-line, atendimento ao cliente e produção de anúncios, o que pode proporcionar uma experiência de serviço eficiente, vívida e personalizada e promover o desenvolvimento inteligente de setores relacionados.

Principais recursos do JoyHallo

Geração de vídeo com base em áudioCom base no sinal de áudio recebido, gera automaticamente um vídeo falado que corresponde a ele.
Capacidade geradora entre idiomasJoyHallo: Além de se especializar na geração de vídeos em mandarim, a JoyHallo pode gerar vídeos em inglês.
Sincronização labialO modelo sincroniza com precisão os movimentos labiais em áudio e vídeo.
Geração de expressões faciaisGeração de expressões faciais apropriadas com base na emoção e no tom de voz do áudio.

Endereço do site oficial da JoyHallo

Site do projeto::https://jdh-algo.github.io/JoyHallo/
Repositório do GitHub::https://github.com/jdh-algo/JoyHallo
Biblioteca do modelo HuggingFace::https://huggingface.co/jdh-algo/JoyHallo-v1
Artigo técnico do arXiv::https://arxiv.org/pdf/2409.13268

Como usar o JoyHallo

Preparação ambiental::
- Requisitos de hardwareRecomendamos o uso de computadores com GPUs de alto desempenho, como placas de vídeo da série NVIDIA (por exemplo, série RTX 30 ou superior), para acelerar o processo de inferência do modelo.
- ambiente de softwareVerifique se o Python está instalado em seu sistema (versão recomendada 3.8 e superior). Instale o PyTorch com base no seguinte comando (escolha o comando de instalação apropriado de acordo com a versão do CUDA):

pip install torch torchvision torchaudio

Instalação de dependências::
- Clonagem do repositório GitHub do JoyHallo::

git clone https://github.com/jdh-algo/JoyHallo.git
cd JoyHallo

- Instalar as dependências do projeto::

pip install -r requirements.txt

Preparação de dadosSe você usar seus próprios dados para treinamento ou ajuste fino, precisará preparar os dados de acordo com o formato de dados do JoyHallo. Os arquivos de áudio precisam estar no formato wav e os arquivos de vídeo precisam estar no formato mp4. Se você estiver usando apenas o modelo pré-treinado para inferência, pule esta etapa diretamente.
Carregamento e inferência de modelos::
- Carregamento de modelos pré-treinadosModelos pré-treinados do JoyHallo: os modelos pré-treinados do JoyHallo são carregados com base na biblioteca de modelos Hugging Face.

from transformers import AutoModelForAudioToVideo, AutoProcessor

model_name = "jdh-algo/JoyHallo-v1"
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForAudioToVideo.from_pretrained(model_name)

- Pré-processamento de áudio: converte arquivos de áudio para o formato exigido pelo modelo::

from datasets import load_dataset

dataset = load_dataset("audiofolder", data_dir="path/to/your/audio/files")
inputs = processor(dataset[0]["audio"], return_tensors="pt")

- Gerar vídeoRaciocínio com modelos para gerar vídeos:

outputs = model(**inputs)
video = processor.postprocess_video(outputs)
video.save("output_video.mp4")

Principais pontos fortes do JoyHallo

Otimização do mandarimJoyHallo foi projetado para mandarim e pode combinar com precisão os movimentos labiais para simular com exatidão os sons complexos de vogais e rimas em mandarim, como "zh", "ch", "sh zh", "ch", "sh", etc. Ele suporta a geração de expressões faciais ricas com base nas emoções e entonações do áudio, tornando o vídeo mais contagiante.
competência multilíngueO JoyHallo tem a capacidade de gerar vídeos em inglês, além de mandarim, e suporta cenários de aplicativos em vários idiomas, como atendimento ao cliente para empresas multinacionais, educação internacional etc., o que tem uma ampla gama de aplicabilidade.
Estruturas eficientesBaseado em uma estrutura semidesacoplada, os processos de incorporação de recursos de áudio e de geração de vídeo são separados, o que melhora significativamente a velocidade de inferência, que é 14,31 TP3T mais rápida do que o modelo tradicional totalmente acoplado.
Cenários de aplicativos avançadosJoyHallo é aplicável a uma ampla gama de setores e cenários, incluindo âncora virtual (transmissão de notícias, previsão do tempo, comentários de eventos esportivos), educação on-line (aprendizado de idiomas, cursos on-line), atendimento ao cliente (representante virtual de atendimento ao cliente) e outros cenários.
recurso de código abertoDescrição: fornecer um conjunto de dados de código aberto (conjunto de dados jdh-Hallo) contendo conjuntos de dados de vídeo em mandarim de várias idades e estilos de fala, abrangendo conversas cotidianas e tópicos médicos profissionais. O projeto fornece métodos detalhados de treinamento de modelos e código para facilitar a personalização e a otimização dos desenvolvedores.

Para quem é o JoyHallo

criador de conteúdoO sistema de vídeo da Microsoft é um recurso de alta qualidade que permite aos produtores de vídeo e especialistas em mídia social gerar rapidamente conteúdo de vídeo personalizado de alta qualidade, economizando tempo e custos e aumentando o apelo do conteúdo.
educadorGeração de imagens de professores virtuais para plataformas de educação on-line, escolas e instituições de treinamento para enriquecer os recursos de ensino e proporcionar uma experiência de ensino vívida.
Empresas e marcasDepartamentos corporativos de atendimento ao cliente geram representantes virtuais de atendimento ao cliente para aumentar a satisfação com o serviço; equipes de marketing criam vídeos publicitários personalizados para aumentar o apelo da publicidade.
Profissionais do setor de entretenimentoO objetivo é melhorar a eficiência da produção, reduzir os custos de produção e aprimorar a imersão e o realismo do trabalho.
Pesquisadores e desenvolvedoresPesquisadores de inteligência artificial e desenvolvedores de software realizam pesquisa e desenvolvimento para promover o avanço tecnológico e expandir os cenários de aplicação.

Recursos mais recentes de IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Reactive Resume: criador de currículos gratuito e de código aberto com suporte a vários idiomas e modelos

8 meses atrás

010.9K

NeoAI: Projeto de código aberto que permite que a IA assuma a operação remota de computadores e os controle usando linguagem natural

Recursos mais recentes de IA # Projeto de código aberto AI Java # Inteligência de automação de desktop

8 meses atrás

013.8K

Wav2Lip: ferramenta de código aberto de geração de sincronização labial de alta precisão (recomendado)

Recursos mais recentes de IA # Projeto de código aberto AI Java Sincronização de portas #

8 meses atrás

019.6K

Hybrid Turbo S: o grande modelo da Tencent para pensar rápido (aberto para inscrições)

Recursos mais recentes de IA # Projeto de código aberto AI Java

6 meses atrás

010.3K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

JoyHallo - Modelo humano digital de IA de código aberto da Jingdong

O que é JoyHallo?

Principais recursos do JoyHallo

Endereço do site oficial da JoyHallo

Como usar o JoyHallo

Principais pontos fortes do JoyHallo

Para quem é o JoyHallo

Silicon Language AI Knowledge Entrepreneurship Platform - Plataforma de tecnologia humana digital de IA lançada pela Silicon Intelligence

Shangtang Ruyi - plataforma de produção de vídeo humano digital com IA lançada pela Shangtang Technology

Artigos relacionados

Reactive Resume: criador de currículos gratuito e de código aberto com suporte a vários idiomas e modelos

NeoAI: Projeto de código aberto que permite que a IA assuma a operação remota de computadores e os controle usando linguagem natural

Wav2Lip: ferramenta de código aberto de geração de sincronização labial de alta precisão (recomendado)

Hybrid Turbo S: o grande modelo da Tencent para pensar rápido (aberto para inscrições)

Sem comentários

Últimas coleções

Artigos mais recentes

JoyHallo - Modelo humano digital de IA de código aberto da Jingdong

O que é JoyHallo?

Principais recursos do JoyHallo

Endereço do site oficial da JoyHallo

Como usar o JoyHallo

Principais pontos fortes do JoyHallo

Para quem é o JoyHallo

Silicon Language AI Knowledge Entrepreneurship Platform - Plataforma de tecnologia humana digital de IA lançada pela Silicon Intelligence

Shangtang Ruyi - plataforma de produção de vídeo humano digital com IA lançada pela Shangtang Technology

Artigos relacionados

Reactive Resume: criador de currículos gratuito e de código aberto com suporte a vários idiomas e modelos

NeoAI: Projeto de código aberto que permite que a IA assuma a operação remota de computadores e os controle usando linguagem natural

Wav2Lip: ferramenta de código aberto de geração de sincronização labial de alta precisão (recomendado)

Hybrid Turbo S: o grande modelo da Tencent para pensar rápido (aberto para inscrições)

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes