Aprendizagem pessoal com IA
e orientação prática
讯飞绘镜

Sua pessoa digital exclusiva? O PK definitivo de seis soluções de código aberto para pessoas digitais: uma comparação de resultados em um piscar de olhos!

Recentemente, no círculo da IA, a tecnologia humana digital está realmente uma bagunça, uma variedade de programas humanos digitais "de código aberto, os mais fortes" sem fim, deslumbrantes. Embora o autor também tenha compartilhado vários pacotes de integração humana digital, diante de tantas opções, é inevitável que as pessoas fiquem confusas e não saibam qual é o mais adequado para elas.

Apresentado anteriormente para os leitores:12 pessoas digitais gratuitas implantadas localmenteComo a chamada "dificuldade de escolher" é um problema comum das pessoas contemporâneas, a fim de resolver os problemas de todos, desta vez, um fôlego de seis pessoas digitais para inventariar!


O autor realizará um inventário abrangente de recursos compartilhados anteriormente relacionados a pessoas digitais, comparando-os em detalhes Efeitos de realização, requisitos de configuração, tempo de geração e outras informações importantes para que todos possam claro em um relance Entenda o estado da arte atual da tecnologia humana digital de código aberto para que você possa escolher o "humano digital" mais adequado para você.

 

Pessoas digitais: a "garota gostosa" do espaço de IA

Quando se trata da tecnologia mais quente em IA no momento, as pessoas digitais estão definitivamente na lista.

Com o AI Painting Publisher IA de estabilidade Ao contrário das frequentes notícias de fechamentos e da situação de "involução" de grandes fabricantes de modelos nacionais e estrangeiros envolvidos em uma guerra de preços, as pessoas digitais demonstraram valor comercial real e potencial de lucro no campo da IA.

Por exemplo, em meados de abril deste ano, a pessoa digital do fundador da Jingdong, Liu Qiangdong, "Caixin Dongge", foi revelada na transmissão ao vivo da Jingdong, e seu grau de realismo é incrível, não apenas a velocidade da fala e o sotaque são muito semelhantes aos de uma pessoa real, mas até mesmo seus movimentos habituais são quase exatamente os mesmos.

"Donggao" esfrega os dedos de vez em quando durante seu discurso e, quando enfatiza um ponto, faz um gesto maior e acena com a cabeça de forma natural. Muitos espectadores disseram que mal conseguiam perceber que ele era uma pessoa digital!

A estreia desse show digital humano ao vivo em menos de uma hora, o número de espectadores ultrapassou 20 milhões, o volume de negócios acumulado de toda a transmissão ao vivo é superior a 50 milhões Renminbi (RMB)

O grande sucesso do show de estreia levou diretamente a Jingdong a lançar a atividade "President Digital Man Live" durante a promoção 618 deste ano. A Gree, Hisense, LG, Mingchuangyoupin, Jelia, Corvus, vivo, Samsung e muitos outros executivos de empresas conhecidas foram transformados em pessoas digitais, que pessoalmente baixaram as mercadorias ao vivo.

Os dados oficiais da Jingdong mostram que, até o momento, o pessoal digital da Jingdong speech rhinoceros acumulou serviços de mais de 5.000 marcas, impulsionados pelo valor total das transações de mercadorias (GMV) Mais de US$ 10 bilhões RMB.

O enorme potencial comercial demonstrado pelas pessoas digitais tem atraído cada vez mais a atenção das pessoas. Embora o custo de realização de uma pessoa digital como o "Pick and Sell Dong" ainda não seja alto, com o rápido desenvolvimento da tecnologia de IA, a comunidade de código aberto surgiu com cada vez mais projetos multifuncionais e poderosos de pessoas digitais, o que reduz bastante o limite técnico.

A seguir, vou lhe apresentar um inventário detalhado desses excelentes projetos de código aberto para pessoas digitais.

 

Qual é a melhor tecnologia humana digital de código aberto? Uma avaliação rigorosa de seis projetos

A tecnologia humana digital, um conceito que antes existia apenas em filmes de ficção científica, está gradualmente entrando na vida real. Com o rápido avanço da tecnologia de inteligência artificial, o campo de pessoas digitais de código aberto também se tornou altamente competitivo, com as principais instituições de pesquisa e empresas de tecnologia lançando suas próprias soluções de código aberto.

A seguir, farei uma análise detalhada de seis projetos representativos de pessoas digitais de código aberto e Em ordem de desenvolvimento tecnológico É apresentada uma introdução para facilitar a compreensão intuitiva da evolução da tecnologia humana digital.

1. wav2lip: um representante da primeira geração de tecnologia humana digital

Wav2Lip O algoritmo é um algoritmo de geração de animação facial baseado em aprendizagem profunda e orientado pela fala, que é um esquema mais amplamente usado no início da tecnologia humana digital. A ideia central é mapear as informações no sinal de fala para os parâmetros de animação facial para gerar animação facial sincronizada com a fala.

  • Geração de casosA figura abaixo mostra o Wav2Lip Efeito humano digital gerado. Pode-se observar que os movimentos faciais dos personagens na imagem são rígidos, concentrando-se principalmente nos movimentos mecânicos dos lábios, e a maturidade geral da pessoa digital é relativamente baixa.

Wav2Lip 数字人效果

  • Requisitos de configuraçãoWav2Lip tem baixos requisitos de hardware, exigindo apenas uma GPU com 4 GB de RAM para ser executado. São necessários cerca de 5 a 15 minutos de processamento para gerar um vídeo humano digital de 1 minuto.

2. SadTalker: um programa avançado para movimentos faciais mais naturais

SadTalker é um projeto de código aberto da Xi'an Jiaotong University, que gera coeficientes de movimento em 3D aprendendo com o áudio e o combina com um novo renderizador de rosto em 3D para gerar movimentos da cabeça, obtendo o efeito de gerar um vídeo humano digital de alta qualidade usando apenas uma única foto e um trecho de áudio.

  • Geração de casosA figura abaixo mostra o SadTalker Efeitos humanos digitais gerados. Em comparação com o Wav2Lip, o SadTalker melhorou a naturalidade dos movimentos faciais, pois a cabeça não está mais completamente estática, mas alguns movimentos leves foram adicionados. No entanto, um olhar mais atento revela que ainda há algum desalinhamento nas bordas da figura. Então, aqui está. SadTalker aprimorado para gerar pessoas digitais usando vídeo de retrato

SadTalker 数字人效果

  • Requisitos de configuraçãoComo o SadTalker gera pessoas digitais aprimoradas, os requisitos de hardware aumentaram de acordo. É recomendável usar uma GPU com 6 GB de RAM para garantir uma operação tranquila. Se você usar uma GPU com menos de 6 GB de RAM ou uma CPU, a velocidade de geração será mais lenta. São necessários cerca de 10 a 20 minutos de tempo de processamento para gerar um vídeo humano digital de aproximadamente 1 minuto.

3. MuseTalk: da Tencent, a sincronização labial é mais precisa

MuseTalk A tecnologia principal do MuseTalk está na capacidade de ajustar automaticamente a imagem facial do personagem digital com base no sinal de áudio, garantindo que o formato dos lábios seja altamente consistente com o conteúdo do áudio, obtendo assim um efeito de sincronização labial mais natural.

  • Geração de casosA figura abaixo mostra o efeito da pessoa digital gerada pelo MuseTalk. Como você pode ver, o MuseTalk melhorou em relação ao SadTalker, os movimentos da cabeça e do rosto são mais naturais e o desalinhamento das bordas foi atenuado. No entanto, ainda há espaço para melhorias na precisão da animação labial.

MuseTalk 数字人效果

  • Requisitos de configuraçãoRequisitos de hardware do MuseTalk: os requisitos de hardware do MuseTalk são semelhantes aos do SadTalker, e uma GPU com 6 GB de memória de vídeo é recomendada para uma melhor experiência de execução. Leva cerca de 10 a 20 minutos para gerar um vídeo de 1 minuto de uma pessoa digital.

4. hallo: produção conjunta da Baidu, Fudan, ETH Zurich e Universidade de Nanjing, o efeito é incrível!

Olá O Hallo, um projeto de humano digital desenvolvido pela Baidu em colaboração com a Fudan University, a ETH Zurich e a Nanjing University, fez um progresso significativo no campo da geração de animação de retratos orientada por áudio. O Hallo utiliza tecnologia avançada de IA para gerar vídeos de retratos realistas e dinâmicos com base na entrada de voz. A tecnologia analisa profundamente a entrada de voz para sincronizar os movimentos faciais, incluindo lábios, expressões e poses da cabeça, resultando em um efeito humano digital impressionante.

  • Geração de casosA figura abaixo mostra o Olá O efeito do ser humano digital gerado. As figuras geradas pelo Hallo são um salto quântico em relação às soluções anteriores em termos de clareza, riqueza de movimentos da cabeça e sutileza das expressões faciais.

Hallo 数字人效果

  • Requisitos de configuraçãoHallo: Embora o efeito seja excelente, ele também exige um desempenho de hardware superior. De acordo com minha análise, é recomendável usar uma GPU com mais de 10 GB de memória de vídeo para executá-lo sem problemas. São necessários de 30 a 40 minutos de tempo de processamento para gerar um vídeo de 1 minuto de uma pessoa digital.

5.LivePortrait: código aberto Racer, costura sem costura com vários caracteres

LivePortrait é um projeto de pessoa digital atraente de código aberto da Racer. Sua singularidade é que ele pode não apenas controlar com precisão a direção do olhar do personagem e a abertura e o fechamento dos lábios, mas também pode obter vários retratos de pessoas perfeitamente unidos.

  • Geração de casosA figura abaixo mostra o LivePortrait Efeito de pessoas digitais geradas. Como você pode ver, o LivePortrait lida com cenas de várias pessoas com transições muito suaves e naturais entre os personagens, sem bordas abruptas ou marcas de emenda.

LivePortrait 数字人效果

  • Requisitos de configuraçãoEm comparação com o Hallo, o LivePortrait tem um requisito de hardware menor e, ao mesmo tempo, garante excelentes resultados de geração. De acordo com minha avaliação, uma GPU com 8 GB de RAM pode executá-lo sem problemas, e uma GPU com 6 GB de RAM mal consegue executá-lo. Leva cerca de 10 a 20 minutos para gerar um vídeo humano digital de 1 minuto.

6. EchoMimic: unidade dupla de áudio e vídeo, mais realista e natural

A tecnologia humana digital tradicional se baseia em áudio ou em pontos-chave faciais, cada um com suas próprias vantagens e desvantagens. Considerando que EchoMimic Em vez disso, ele combina de forma inteligente esses dois métodos de condução para obter uma geração de retratos dinâmicos mais realistas e naturais por meio do treinamento duplo de pontos-chave de áudio e faciais.
EchoMimic对比

  • Geração de casosA figura a seguir mostra o efeito de um ser humano digital gerado pelo EchoMimic. Como você pode ver, as expressões faciais e os movimentos corporais do ser humano digital gerado pelo EchoMimic são tão naturais e suaves que é quase difícil distinguir o ser humano real do falso.

EchoMimic 数字人效果

  • Requisitos de configuraçãoOs resultados de geração do EchoMimic foram bastante aprimorados sem nenhum aumento significativo nos requisitos de hardware, com uma GPU com 8 GB de RAM funcionando sem problemas. No entanto, o tempo de geração aumentou um pouco, e são necessários cerca de 15 a 30 minutos de processamento para gerar um vídeo de 1 minuto de uma pessoa digital.

 

Resumo e perspectivas

A velocidade de desenvolvimento da tecnologia humana digital é incrível, ultrapassando constantemente os limites da imaginação das pessoas. Para mostrar de forma mais intuitiva o efeito dos vários aprimoramentos da tecnologia humana digital de código aberto, o autor criou um gráfico comparativo do progresso tecnológico:

开源数字人技术效果对比

Como a tecnologia de IA continua avançando, temos motivos para acreditar que, no futuro, surgirão cada vez mais projetos poderosos de pessoas digitais com IA de código aberto. Se você tem curiosidade sobre a tecnologia de humanos digitais e está ansioso para experimentar os efeitos impressionantes dos humanos digitais, agora é o melhor momento para fazer isso. Vamos testemunhar juntos o desenvolvimento florescente e as infinitas possibilidades da tecnologia humana digital!

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Sua pessoa digital exclusiva? O PK definitivo de seis soluções de código aberto para pessoas digitais: uma comparação de resultados em um piscar de olhos!
pt_BRPortuguês do Brasil