Votre personne numérique exclusive ? L'ultime PK de six solutions open source de personne numérique : une comparaison des résultats en un coup d'œil !

Nouvelles de l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

10.5K 00

Récemment, dans le cercle de l'IA, la technologie de l'humain numérique est vraiment en pleine effervescence, une variété de programmes de l'humain numérique "open source le plus fort" est sans fin, éblouissante. Bien que l'auteur ait également partagé un certain nombre de progiciels d'intégration de l'humain numérique, face à tant de choix, il est inévitable que les gens soient désorientés et ne sachent pas lequel leur convient le mieux.

Introduit précédemment pour les lecteurs :12 personnes numériques gratuites déployées localementLa difficulté de choisir étant un problème commun aux gens d'aujourd'hui, afin de résoudre les problèmes de chacun, cette fois-ci, une bouffée d'air de six personnes numériques à inventorier !

L'auteur dressera un inventaire complet des ressources précédemment partagées concernant les personnes numériques, en les comparant en détail. Effets de la réalisation, exigences de configuration, temps de génération et d'autres informations clés pour permettre à chacun de clair en un coup d'œil Comprendre l'état actuel de la technologie de l'humain numérique open source afin de pouvoir choisir l'"humain numérique" qui vous convient le mieux.

Les personnes numériques : la "poulette" de l'espace IA

Lorsqu'il s'agit de la technologie la plus en vogue actuellement dans le domaine de l'IA, les personnes numériques figurent incontestablement sur la liste.

Avec AI Painting Publisher Stabilité AI Contrairement aux fréquentes nouvelles de fermetures et à la situation d'"involution" des grands fabricants de modèles nationaux et étrangers pris dans une guerre des prix, les personnes numériques dans le domaine de l'IA ont démontré une réelle valeur commerciale et un potentiel de profit.

À titre d'exemple, à la mi-avril de cette année, le fondateur de Jingdong, Liu Qiangdong, a dévoilé son personnage numérique, "Caixin Dongge", lors de la diffusion en direct de Jingdong. Son degré de réalisme est étonnant : non seulement la vitesse d'élocution et l'accent sont très proches de ceux d'une personne réelle, mais même ses mouvements habituels sont presque exactement les mêmes.

"Donggao" frotte ses doigts l'un contre l'autre de temps en temps pendant son discours, et lorsqu'il insiste sur un point, il fait un geste plus ample et hoche la tête de manière naturelle. De nombreux spectateurs ont déclaré qu'ils avaient du mal à deviner qu'il s'agissait d'une personne numérique !

Le début de ce spectacle numérique humain en direct en moins d'une heure, le nombre de téléspectateurs a dépassé les 20 millions, le chiffre d'affaires cumulé de l'ensemble du spectacle en direct est supérieur à 1,5 milliard d'euros. 50 millions d'euros Renminbi (RMB)

Le grand succès du premier spectacle a directement incité Jingdong à lancer l'activité "President Digital Man Live" au cours de la promotion 618 de cette année. Gree, Hisense, LG, Mingchuangyoupin, Jelia, Corvus, vivo, Samsung et bien d'autres dirigeants d'entreprises bien connues ont été transformés en personnes numériques, qui vivent personnellement avec les produits.

Les données officielles de Jingdong montrent que, jusqu'à présent, le rhinocéros numérique de Jingdong a accumulé des services de plus de 5 000 marques, grâce au montant total des transactions de marchandises (GMV). Plus de 10 milliards de dollars RMB.

L'énorme potentiel commercial des personnes numériques a attiré l'attention d'un nombre croissant de personnes. Bien que le coût de réalisation d'une personne numérique super-réaliste telle que "Donggao" ne soit pas encore élevé, avec le développement rapide de la technologie de l'IA, la communauté open source a émergé avec de plus en plus de projets de personnes numériques multifonctionnelles et puissantes, ce qui réduit considérablement le seuil technique.

Ensuite, permettez-moi de vous présenter un inventaire détaillé de ces excellents projets open source sur les personnes numériques.

Quelle est la meilleure technologie numérique humaine open source ? Une évaluation rigoureuse de six projets

La technologie de l'homme numérique, un concept qui n'existait autrefois que dans les films de science-fiction, entre progressivement dans la vie réelle. Avec les progrès rapides de la technologie de l'intelligence artificielle, le domaine des personnes numériques libres est également devenu très compétitif, avec de grandes institutions de recherche et des entreprises technologiques qui lancent leurs propres solutions libres.

Dans ce qui suit, je vais procéder à un examen détaillé de six projets open source représentatifs de personnes numériques et de Par ordre de développement technologique Une introduction est donnée pour faciliter une compréhension intuitive de l'évolution de la technologie humaine numérique.

1) Wav2lip : un représentant de la première génération de la technologie humaine numérique

Wav2Lip L'algorithme est un algorithme de génération d'animation faciale basée sur l'apprentissage profond de la parole, qui est un schéma plus largement utilisé dans les premières technologies humaines numériques. L'idée de base est d'associer les informations du signal vocal aux paramètres de l'animation faciale afin de générer une animation faciale synchronisée avec la parole.

Générer des casLa figure suivante montre les Wav2Lip Effet humain numérique généré. On peut constater que les mouvements faciaux des personnages de l'image sont rigides, se concentrant principalement sur les mouvements mécaniques des lèvres, et que la maturité globale de la personne numérique est relativement faible.

Exigences de configurationWav2Lip : Wav2Lip a de faibles exigences matérielles, nécessitant seulement un GPU avec 4 Go de RAM pour fonctionner. Il faut environ 5 à 15 minutes de traitement pour générer une vidéo humaine numérique d'une minute.

2. SadTalker : un programme avancé pour des mouvements faciaux plus naturels

SadTalker est un projet open source de l'université de Xi'an Jiaotong, qui génère des coefficients de mouvement 3D en apprenant à partir de données audio et les combine avec un nouveau moteur de rendu de visage 3D pour générer des mouvements de tête, ce qui permet de générer une vidéo humaine numérique de haute qualité à partir d'une seule photo et d'un morceau d'audio.

Générer des casLa figure suivante montre les SadTalker Effets humains numériques générés. Par rapport à Wav2Lip, SadTalker a amélioré le naturel des mouvements du visage, la tête n'est plus complètement statique, mais de légers mouvements ont été ajoutés. Cependant, un examen plus approfondi révèle qu'il y a encore un certain désalignement sur les bords de la figure. Voilà, c'est fait. SadTalker amélioré pour générer des personnes numériques à partir de vidéos de portraits

Exigences de configurationSadTalker : Comme SadTalker génère des personnes numériques améliorées, les exigences matérielles ont augmenté en conséquence. Il est recommandé d'utiliser un GPU avec 6 Go de RAM pour garantir un fonctionnement fluide. Si vous utilisez un GPU avec moins de 6 Go de RAM ou un CPU, la vitesse de génération sera plus lente. Il faut environ 10 à 20 minutes de temps de traitement pour générer une vidéo d'humain numérique d'environ 1 minute.

3. MuseTalk : de Tencent, la synchronisation labiale est plus précise

MuseTalk MuseTalk est un projet d'humain numérique lancé par Tencent, qui se concentre sur la génération d'humains numériques synchronisés avec les lèvres en temps réel et pilotés par le son. La technologie de base de MuseTalk réside dans sa capacité à ajuster automatiquement l'image faciale du personnage numérique sur la base du signal audio, en veillant à ce que la forme des lèvres soit parfaitement cohérente avec le contenu audio, ce qui permet d'obtenir un effet de synchronisation des lèvres plus naturel.

Générer des casLa figure ci-dessous montre l'effet de la personne numérique générée par MuseTalk. Comme vous pouvez le constater, MuseTalk s'est amélioré par rapport à SadTalker, les mouvements de la tête et du visage sont plus naturels et le désalignement des bords a été atténué. Toutefois, la finesse de l'animation des lèvres peut encore être améliorée.

Exigences de configurationMuseTalk : Les exigences matérielles de MuseTalk sont similaires à celles de SadTalker, et un GPU avec 6 Go de mémoire vidéo est recommandé pour une meilleure expérience d'utilisation. Il faut environ 10 à 20 minutes pour générer une vidéo d'une minute d'une personne numérique.

4) Hallo : production conjointe de Baidu, Fudan, ETH Zurich et Nanjing University, l'effet est stupéfiant !

Bonjour Hallo, un projet d'humain numérique développé par Baidu en collaboration avec l'Université de Fudan, l'ETH Zurich et l'Université de Nanjing, a fait des progrès significatifs dans le domaine de la génération d'animations de portraits pilotées par le son. Hallo utilise une technologie d'intelligence artificielle avancée pour générer des portraits vidéo réalistes et dynamiques à partir de la voix. La technologie analyse en profondeur l'entrée vocale pour synchroniser les mouvements du visage, y compris les lèvres, les expressions et les poses de la tête, ce qui donne un effet humain numérique impressionnant.

Générer des casLa figure suivante montre les Bonjour L'effet de l'homme numérique généré. Les personnages générés par Hallo représentent un bond en avant par rapport aux solutions précédentes en termes de clarté, de richesse des mouvements de la tête et de subtilité des expressions faciales.

Exigences de configurationHallo : Bien que Hallo ait des effets exceptionnels, il nécessite également des performances matérielles plus élevées. D'après mon évaluation, il est recommandé d'utiliser un GPU avec plus de 10 Go de mémoire vidéo pour le faire fonctionner sans problème. Il faut 30 à 40 minutes de traitement pour générer une vidéo d'une minute d'une personne numérique.

5. LivePortrait : Racer open source, couture sans couture multi-charactères

Portrait vivant est un projet de personnage numérique accrocheur mis à disposition par Racer. Sa particularité réside dans le fait qu'il peut non seulement contrôler avec précision la direction du regard du personnage et l'ouverture et la fermeture des lèvres, mais aussi réaliser plusieurs portraits de personnes assemblés de manière transparente.

Générer des casLa figure suivante montre les Portrait vivant Effet de personnes numériques générées. Comme vous pouvez le constater, LivePortrait gère les scènes à plusieurs personnes avec des transitions très fluides et naturelles entre les personnages, sans bordures abruptes ni marques de raccord.

Exigences de configurationComparé à Hallo, LivePortrait nécessite moins de matériel tout en garantissant d'excellents résultats de génération. D'après mon évaluation, un GPU avec 8 Go de RAM peut le faire fonctionner sans problème, et un GPU avec 6 Go de RAM peut à peine le faire fonctionner. Il faut environ 10 à 20 minutes pour générer une vidéo humaine numérique d'une minute.

6. EchoMimic : double entraînement audio et vidéo, plus réaliste et plus naturel

La technologie humaine numérique traditionnelle repose soit sur l'audio, soit sur les touches faciales, chacune ayant ses propres avantages et inconvénients. Alors que EchoMimic Au contraire, il combine astucieusement ces deux méthodes de pilotage pour générer des portraits dynamiques plus réalistes et plus naturels grâce à un double apprentissage des points clés audio et faciaux.
你的专属数字人？六大开源数字人方案终极PK：效果对比一目了然！

Générer des casLa figure suivante montre l'effet d'un humain numérique généré par EchoMimic. Comme vous pouvez le constater, les expressions faciales et les mouvements du corps de l'humain numérique généré par EchoMimic sont si naturels et fluides qu'il est presque difficile de distinguer le vrai du faux.

Exigences de configurationLes résultats de la génération d'EchoMimic ont été grandement améliorés sans augmentation significative des exigences matérielles, avec un GPU doté de 8 Go de RAM fonctionnant sans problème. Cependant, le temps de génération est légèrement plus long, et il faut environ 15 à 30 minutes de temps de traitement pour générer une vidéo d'une minute d'une personne numérique.

Résumé et perspectives

La vitesse de développement de la technologie numérique humaine est stupéfiante, dépassant constamment les limites de l'imagination. Afin de montrer de manière plus intuitive l'effet des différentes technologies humaines numériques à source ouverte, l'auteur a créé un tableau comparatif des progrès technologiques :

Comme la technologie de l'IA continue de progresser, nous avons des raisons de croire que de plus en plus de projets open source puissants d'humains numériques vont émerger à l'avenir. Si vous êtes curieux de la technologie de l'humain numérique et désireux d'expérimenter les effets stupéfiants de l'humain numérique, c'est le meilleur moment pour le faire. Soyons témoins ensemble du développement florissant et des possibilités infinies de la technologie de l'homme numérique !

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

RÉVISION : OPENAI lance discrètement le produit de recherche en IA "SearchGPT".

Nouvelles de l'IA

il y a 1 an

08.5K

9 outils de conception de logos en IA populaires dans les pays d'outre-mer Recommandation

Nouvelles de l'IA

Il y a 6 mois

08.1K

Smart Spectrum open platform, le premier modèle de vision multimodale GLM-4V-Flash gratuit en ligne, utilisation illimitée !

Nouvelles de l'IA # Free Large Model API

Il y a 9 mois

013.3K

OpenAI espère atteindre 1 milliard d'utilisateurs l'année prochaine et va développer ses centres de données de manière agressive

Nouvelles de l'IA

Il y a 9 mois

08.4K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Votre personne numérique exclusive ? L'ultime PK de six solutions open source de personne numérique : une comparaison des résultats en un coup d'œil !

Les personnes numériques : la "poulette" de l'espace IA

Quelle est la meilleure technologie numérique humaine open source ? Une évaluation rigoureuse de six projets

1) Wav2lip : un représentant de la première génération de la technologie humaine numérique

2. SadTalker : un programme avancé pour des mouvements faciaux plus naturels

3. MuseTalk : de Tencent, la synchronisation labiale est plus précise

4) Hallo : production conjointe de Baidu, Fudan, ETH Zurich et Nanjing University, l'effet est stupéfiant !

5. LivePortrait : Racer open source, couture sans couture multi-charactères

6. EchoMimic : double entraînement audio et vidéo, plus réaliste et plus naturel

Résumé et perspectives

o3 Démonstration pratique de la supériorité des modèles d'inférence génériques sur les modèles de programmation spécialisés dans le domaine de la programmation

Baidu est revenu à la raison et la Wenshin Intelligent Body Platform aura un accès complet à DeepSeek !

Articles connexes

RÉVISION : OPENAI lance discrètement le produit de recherche en IA "SearchGPT".

9 outils de conception de logos en IA populaires dans les pays d'outre-mer Recommandation

Smart Spectrum open platform, le premier modèle de vision multimodale GLM-4V-Flash gratuit en ligne, utilisation illimitée !

OpenAI espère atteindre 1 milliard d'utilisateurs l'année prochaine et va développer ses centres de données de manière agressive

Pas de commentaires

Dernières collections

Derniers articles

Votre personne numérique exclusive ? L'ultime PK de six solutions open source de personne numérique : une comparaison des résultats en un coup d'œil !

Les personnes numériques : la "poulette" de l'espace IA

Quelle est la meilleure technologie numérique humaine open source ? Une évaluation rigoureuse de six projets

1) Wav2lip : un représentant de la première génération de la technologie humaine numérique

2. SadTalker : un programme avancé pour des mouvements faciaux plus naturels

3. MuseTalk : de Tencent, la synchronisation labiale est plus précise

4) Hallo : production conjointe de Baidu, Fudan, ETH Zurich et Nanjing University, l'effet est stupéfiant !

5. LivePortrait : Racer open source, couture sans couture multi-charactères

6. EchoMimic : double entraînement audio et vidéo, plus réaliste et plus naturel

Résumé et perspectives

o3 Démonstration pratique de la supériorité des modèles d'inférence génériques sur les modèles de programmation spécialisés dans le domaine de la programmation

Baidu est revenu à la raison et la Wenshin Intelligent Body Platform aura un accès complet à DeepSeek !

Articles connexes

RÉVISION : OPENAI lance discrètement le produit de recherche en IA "SearchGPT".

9 outils de conception de logos en IA populaires dans les pays d'outre-mer Recommandation

Smart Spectrum open platform, le premier modèle de vision multimodale GLM-4V-Flash gratuit en ligne, utilisation illimitée !

OpenAI espère atteindre 1 milliard d'utilisateurs l'année prochaine et va développer ses centres de données de manière agressive

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles