Aprendizagem pessoal com IA
e orientação prática

Recomendamos 12 softwares gratuitos de digitalização de pessoas para implantação local

No rápido desenvolvimento da IA, os Humanos Digitais (Digital Humans) amadureceram e podem ser gerados rapidamente a baixo custo. Devido à ampla gama de cenários de aplicação comercial, eles têm recebido atenção. Seja na realidade virtual (VR), na realidade aumentada (AR) ou na produção de filmes e televisão, no desenvolvimento de jogos ou na promoção de marcas, os humanos digitais desempenham um papel importante.

Em termos gerais, há pessoas digitais com modelagem 3D (incluindo captura de movimento), pessoas digitais com imagens 2D estáticas (incluindo pessoas reais) e pessoas digitais reais do tipo face-swapping.


Este artigo se concentra na classe de imagem de clonagem de imagem pessoal do homem digital, que pertence à imagem estática 2D do homem digital e contém três pontos de função básicos: imagem real, clonagem de voz e sincronização de boca.

 

Observação 1: alguns projetos não incluem a parte de geração de voz (clonagem), mas esse não é o ponto, pode ser implantado separadamente, pois há muitos mercados excelentesProjeto de clonagem de voz com IA.

Observação 2: Atualmente, a qualidade das figuras estáticas 2D varia principalmente na sincronização de suas bocas e na naturalidade de seus "movimentos de vídeo". Você pode tentar otimizar isso separadamentesincronização labialNós.

Observação 3: A troca de rosto + clonagem de voz também é uma maneira rápida de gerar uma pessoa digital, que é adequada para manter inalteradas a imagem e a voz de oradores públicos, e não está incluída nos programas a seguir. A tecnologia avançada de troca de rosto por vídeo é arriscada quando se torna popular, por isso não é apresentada.

 

AIGCPanel: clone de código aberto do sistema de integração digital man, implantação com um clique do cliente digital man gratuito

O AigcPanel é um sistema completo de produção humana digital de IA para todos os usuários, desenvolvido com a pilha de tecnologia electron+vue3+typescript, com suporte à implementação com um clique no sistema Windows. O sistema foi projetado para ser fácil de usar como núcleo, de modo que mesmo os usuários com uma base técnica fraca possam dominá-lo facilmente. As principais funções incluem síntese humana digital de vídeo, síntese de fala, clonagem de fala, etc., e oferece funções perfeitas de gerenciamento de modelos locais. O sistema suporta interface em vários idiomas (incluindo chinês simplificado e inglês) e integra pacotes de inicialização com um clique para vários modelos maduros, como MuseTalk e cosyvoice. Vale a pena mencionar que o sistema suporta a correspondência de sincronização labial entre vídeo e voz na síntese de vídeo e oferece opções avançadas de configuração de parâmetros de voz na síntese de fala. Como um projeto de código-fonte aberto, o AigcPanel é lançado com base no protocolo AGPL-3.0, enfatizando o uso compatível e proibindo explicitamente seu uso em qualquer negócio ilegal e ilícito.

AIGCPanel: sistema de integração de pessoa digital de código aberto, cliente de pessoa digital gratuito para implantação de vários sistemas com um clique-1

 

DUIX: pessoas digitais inteligentes para interação em tempo real, com suporte à implantação multiplataforma com um clique

O DUIX (Dialogue User Interface System) é uma plataforma de interação humana digital orientada por IA criada pela Silicon Intelligence. Com recursos de interação humana digital de código aberto, os desenvolvedores podem integrar facilmente modelos de grande escala, reconhecimento automático de fala (ASR) e funções de conversão de texto em fala (TTS) para obter interação em tempo real com humanos digitais. O DUIX suporta a implementação com um clique em várias plataformas, como Android e iOS, facilitando para todos os desenvolvedores a criação de agentes humanos digitais inteligentes e personalizados que podem ser aplicados a vários setores. Com baixo custo de implementação, baixa dependência de rede e funcionalidade diversificada, a plataforma é capaz de atender às necessidades de vários setores, como vídeo, mídia, atendimento ao cliente, finanças, rádio e TV.

DUIX: Habilitando a interação humana digital inteligente, suportando a implantação de um clique em várias plataformas-1

 

EchoMimic: animação de retrato realista orientada por áudio

O EchoMimic é um projeto de código aberto que tem como objetivo gerar animações realistas de retratos, impulsionadas pelo áudio. Desenvolvido pela divisão Terminal Technologies do Ant Group, o projeto utiliza condições de pontos de marcação editáveis para gerar vídeos de retratos dinâmicos combinando áudio e pontos de marcação facial. O EchoMimic foi amplamente comparado em vários conjuntos de dados públicos e proprietários, demonstrando seu desempenho superior em avaliações quantitativas e qualitativas.

EchoMimic: Animação de retrato realista orientada por áudio-1

Sonic: uma nova solução de código aberto para humanos digitais, geração de vídeos orais digitais orientados por áudio com expressões faciais vívidas

A Sonic é uma plataforma inovadora que se concentra na percepção global de áudio, projetada para gerar animações de retratos vívidos impulsionadas pelo áudio. Desenvolvida por uma equipe de pesquisadores da Tencent e da Universidade de Zhejiang, a plataforma usa informações de áudio para controlar as expressões faciais e os movimentos da cabeça para gerar vídeos animados naturais e fluidos. As principais tecnologias da Sonic incluem aprendizado de áudio aprimorado pelo contexto, controladores desacoplados de movimento e módulos de fusão de mudança de posição com reconhecimento de tempo. Essas tecnologias permitem que o Sonic gere vídeos estáveis e realistas de formato longo com diferentes estilos de imagens e vários tipos de entradas de áudio.

Sonic: uma nova solução de código aberto para humanos digitais, geração orientada por áudio de vídeos orais digitais animados com expressões faciais - 1

 

Hallo2: geração orientada por áudio de vídeo de retrato sincronizado com os lábios/sincronizado com a expressão (com instalação em um clique no Windows)

Hallo2 é um projeto de código aberto desenvolvido em conjunto pela Universidade de Fudan e pelo Baidu para gerar animações de retratos de alta resolução por meio de geração orientada por áudio. O projeto utiliza técnicas avançadas de GAN (Generative Adversarial Networks) e de alinhamento temporal para obter uma resolução de 4K e até 1 hora de geração de vídeo. O Hallo2 também oferece suporte a avisos de texto para aumentar a diversidade e a capacidade de controle do conteúdo gerado.

 

VideoChat: pessoa digital interativa por voz em tempo real com clonagem personalizada de imagens e tons, com suporte a soluções de voz de ponta a ponta e soluções em cascata

O VideoChat é um projeto humano digital de interação por voz em tempo real baseado em tecnologia de código aberto, compatível com esquemas de voz de ponta a ponta (GLM-4-Voice - THG) e esquemas em cascata (ASR-LLM-TTS-THG). O projeto permite que os usuários personalizem a imagem e o timbre do ser humano digital e suporta clonagem de timbre e sincronização labial, saída de streaming de vídeo e latência do primeiro pacote de até 3 segundos. Os usuários podem experimentar sua funcionalidade por meio de demonstrações on-line ou implantá-lo e usá-lo localmente por meio de documentação técnica detalhada.

 

TalkingAvatar: plataforma de vídeo de avatar de IA para criar e editar avatares de IA, com base no cliente Windows aritmético nativo

TalkingAvatar é uma plataforma líder de avatar de IA que oferece uma solução completa de IA para pessoas digitais. Oferece aos usuários uma maneira revolucionária de criar, editar e personalizar o conteúdo de vídeo. Com a avançada tecnologia de IA, os usuários podem facilmente reescrever vídeos, clonar vozes, sincronizar lábios e criar vídeos personalizados. Seja para redublar um vídeo existente ou criar uma nova história a partir do zero, o TalkingAvatar tem tudo o que você precisa.

TalkingAvatar: plataforma de vídeo de avatar de IA para criar e editar avatares de IA, com base em aritmética local Cliente Windows-1

 

SadTalker: Faça as fotos falarem | Áudio de sincronização de boca | Vídeo de sincronização de boca sintetizado | Pessoas digitais gratuitas

O SadTalker é uma ferramenta de código aberto que combina uma única foto de retrato com um arquivo de áudio para criar vídeos realistas de cabeças falantes para uma ampla variedade de cenários, como mensagens personalizadas, conteúdo educacional e muito mais. O uso revolucionário de tecnologias de modelagem 3D, como ExpNet e PoseVAE, é excelente na captura de expressões faciais sutis e movimentos da cabeça. Os usuários podem usar a tecnologia SadTalker para projetos pessoais e comerciais, como mensagens, ensino ou marketing.

SadTalker: Faça as fotos falarem | Áudio de sincronização da boca | Vídeo de sincronização da boca sintetizado | Pessoas digitais gratuitas-1

 

AniPortrait: imagem ou movimento de vídeo orientado por áudio para gerar vídeo digital realista de fala humana

O AniPortrait é uma estrutura inovadora para a geração de animações de retratos realistas acionadas por áudio. Desenvolvido pela Huawei, Yang Zejun e Wang Zhisheng do Tencent Game Know Yourself Lab, o AniPortrait é capaz de gerar animações de alta qualidade a partir de áudio e imagens de retrato de referência, e até mesmoFornecer vídeo para reencenação facial. Usando técnicas avançadas de representação intermediária em 3D e animação facial em 2D, a estrutura é capaz de gerar efeitos de animação naturais e suaves para diversos cenários de aplicação, como produção de filmes e televisão, âncoras virtuais e pessoas digitais.

AniPortrait: geração orientada por áudio de vídeo digital realista de fala humana-1

 

MuseV+Muse Talk: Estrutura completa de geração de vídeo humano digital | Retrato para vídeo | Pose para vídeo | Sincronização labial

O MuseV é um projeto público no GitHub que visa à geração de vídeos de avatar com duração ilimitada e alta fidelidade. Ele se baseia na tecnologia de difusão e oferece vários recursos, como Image2Video, Text2Image2Video, Video2Video e outros. São fornecidos detalhes da estrutura do modelo, casos de uso, guia de início rápido, scripts de inferência e agradecimentos.

MuseV: uma estrutura para geração de vídeo humano digital completo | Retrato para vídeo | Pose para vídeo | Lip Sync-1

 

DreamTalk: Gere vídeos de conversação expressivos com uma única imagem de avatar!

O DreamTalk é uma estrutura de geração de cabeças falantes expressivas orientada por modelos de difusão, desenvolvida em conjunto pela Universidade de Tsinghua, pelo Grupo Alibaba e pela Universidade de Ciência e Tecnologia de Huazhong. Ele consiste em três componentes principais: uma rede de redução de ruído, um especialista em lábios com reconhecimento de estilo e um preditor de estilo, e é capaz de gerar cabeças falantes diversas e realistas com base na entrada de áudio. A estrutura é capaz de lidar com áudio multilíngue e ruidoso, fornecendo movimentos faciais de alta qualidade e sincronização precisa da boca.

DreamTalk: gere vídeos de conversação expressivos usando uma única imagem de avatar-1

 

Translation Starter: Ferramenta de sincronização de tradução de conteúdo de vídeo de código aberto | Conversão de idiomas | Sincronização labial

O Translation Starter é um projeto de código aberto desenvolvido pela Sync Labs para ajudar os desenvolvedores a integrar rapidamente o suporte multilíngue ao conteúdo de vídeo. Ele fornece as APIs e a documentação necessárias para que os desenvolvedores criem facilmente aplicativos que exijam tradução de vídeo com sincronização labial. Ele se baseia em poderosas tecnologias de IA, como a Perfect Lip Sync da Sync Lab, a Whisper Translation Technology da Open AI e a Sound Synthesis da Eleven Labs.

Translation Starter: Ferramenta de sincronização de tradução de conteúdo de vídeo de código aberto|Conversão de idiomas|Lip Sync-1

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Recomendamos 12 softwares gratuitos de digitalização de pessoas para implantação local

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil