Ihr exklusiver digitaler Mensch? Die ultimative PK von sechs Open-Source-Digital-Person-Lösungen: ein Vergleich der Ergebnisse auf einen Blick!

AI-NachrichtenAktualisiert vor 7 Monaten AI-Austauschkreis

10.9K 00

Kürzlich, in der AI-Kreis, der digitalen menschlichen Technologie ist wirklich ein heißes Durcheinander, eine Vielzahl von "Open Source die stärkste" digitale menschliche Programm endlos, blendend. Obwohl der Autor hat auch eine Reihe von digitalen menschlichen Integration Pakete geteilt, aber angesichts der vielen Möglichkeiten, ist es unvermeidlich, dass die Menschen verwirrt sein wird, nicht wissen, welche die am besten geeignete für sie ist.

Zuvor für die Leser eingeführt:12 kostenlose, lokal eingesetzte digitale MitarbeiterDa die so genannte "schwer zu wählen" ist ein gemeinsames Problem der zeitgenössischen Menschen, um die Probleme von allen zu lösen, dieses Mal ein Hauch von sechs digitalen Menschen zu inventarisieren!

Der Autor wird eine umfassende Bestandsaufnahme der bisher gemeinsam genutzten Ressourcen im Zusammenhang mit digitalen Menschen durchführen und sie im Detail vergleichen Realisierungseffekte, Konfigurationsanforderungen, Generierungszeit und andere wichtige Informationen, die es jedem ermöglichen übersichtlich auf einen Blick Verstehen Sie den aktuellen Stand der Technik in der Open-Source-Technologie für digitale Menschen, damit Sie den für Sie am besten geeigneten "digitalen Menschen" auswählen können.

Digitale Menschen: das "heiße Eisen" im Bereich der KI

Wenn es um die derzeit heißeste Technologie im Bereich der künstlichen Intelligenz geht, stehen digitale Menschen ganz oben auf der Liste.

Mit AI Painting Publisher Stabilität AI Im Gegensatz zu den häufigen Nachrichten über Schließungen und die "Rückentwicklung" großer in- und ausländischer Modellhersteller, die in einen Preiskampf verwickelt sind, haben digitale Menschen im Bereich der KI einen echten Geschäftswert und ein Gewinnpotenzial nachgewiesen.

Mitte April dieses Jahres wurde beispielsweise die digitale Person des Jingdong-Gründers Liu Qiangdong, "Caixin Dongge", in der Live-Sendung von Jingdong vorgestellt. Der Grad der Realitätsnähe ist verblüffend: Nicht nur die Sprechgeschwindigkeit und der Akzent sind denen einer realen Person sehr ähnlich, auch seine gewohnten Bewegungen sind fast identisch.

"Donggao" reibt während seiner Rede von Zeit zu Zeit die Finger aneinander, und wenn er einen Punkt betont, macht er eine größere Geste und nickt auf natürliche Weise mit dem Kopf. Viele Zuschauer sagten, sie könnten kaum erkennen, dass er ein digitaler Mensch ist!

Das Debüt dieser digitalen menschlichen Live-Show in weniger als einer Stunde, die Zahl der Zuschauer überschritten 20 Millionen, der kumulierte Umsatz der gesamten Live ist mehr als 50 Millionen Renminbi (RMB)

Der große Erfolg der Debüt-Show hat Jingdong direkt dazu veranlasst, die "President Digital Man Live"-Aktivität während der 618 Promotion in diesem Jahr zu starten. Gree, Hisense, LG, Mingchuangyoupin, Jelia, Corvus, vivo, Samsung und viele andere bekannte Unternehmen Führungskräfte wurden in digitale Menschen verwandelt, persönlich unten leben mit Waren.

Jingdong offiziellen Daten zeigen, dass bis jetzt, Jingdong Rede Rhinozeros digitalen Menschen haben Dienstleistungen mehr als 5000 Marken angesammelt, durch den Gesamtbetrag der Warentransaktionen (GMV) angetrieben Über 10 Milliarden Dollar RMB.

Das enorme Geschäftspotenzial der digitalen Menschen hat die Aufmerksamkeit von immer mehr Menschen auf sich gezogen. Obwohl die Kosten für die Realisierung einer superrealistischen digitalen Person wie "Donggao" noch nicht hoch sind, hat die Open-Source-Gemeinschaft mit der rasanten Entwicklung der KI-Technologie immer mehr multifunktionale und leistungsstarke digitale Personenprojekte entwickelt, die die technische Schwelle erheblich senken.

Als Nächstes möchte ich Ihnen eine detaillierte Aufstellung dieser hervorragenden Open-Source-Projekte für digitale Menschen geben.

Was ist die beste quelloffene digitale Humantechnologie? Eine knallharte Bewertung von sechs Projekten

Die Technologie des digitalen Menschen, ein Konzept, das früher nur in Science-Fiction-Filmen existierte, kommt allmählich in der Realität an. Mit dem rasanten Fortschritt der Technologie der künstlichen Intelligenz ist auch der Bereich der quelloffenen digitalen Menschen hart umkämpft, wobei große Forschungseinrichtungen und Technologieunternehmen ihre eigenen quelloffenen Lösungen auf den Markt bringen.

Im Folgenden werde ich einen detaillierten Überblick über sechs repräsentative Open-Source-Projekte für digitale Menschen geben und In der Reihenfolge der technologischen Entwicklung Es wird eine Einführung gegeben, um ein intuitives Verständnis für die Entwicklung der digitalen Humantechnologie zu ermöglichen.

1. wav2lip: ein Vertreter der ersten Generation der Digital Human Technology

Wav2Lip Der Algorithmus ist ein sprachgesteuerter Algorithmus zur Erzeugung von Gesichtsanimationen auf der Grundlage von Deep Learning, einem in der frühen digitalen Humantechnologie weit verbreiteten Verfahren. Die Kernidee besteht darin, die Informationen im Sprachsignal auf die Parameter der Gesichtsanimation abzubilden, um eine mit der Sprache synchronisierte Gesichtsanimation zu erzeugen.

Fälle generierenDie folgende Abbildung zeigt die Wav2Lip Generierter digitaler menschlicher Effekt. Es ist zu erkennen, dass die Gesichtsbewegungen der Figuren im Bild steif sind und sich hauptsächlich auf die mechanischen Bewegungen der Lippen konzentrieren, und die Gesamtreife des digitalen Menschen ist relativ gering.

Anforderungen an die KonfigurationWav2Lip hat geringe Hardware-Anforderungen und benötigt nur eine GPU mit 4 GB RAM. Es dauert etwa 5-15 Minuten, um ein 1-minütiges digitales menschliches Video zu erstellen.

2. der SadTalker: ein fortschrittliches Programm für natürlichere Gesichtsbewegungen

SadTalker ist ein Open-Source-Projekt der Xi'an Jiaotong University, das 3D-Bewegungskoeffizienten durch Lernen aus Audioaufnahmen generiert und diese mit einem neuen 3D-Gesichtsrenderer kombiniert, um Kopfbewegungen zu erzeugen, wodurch der Effekt erreicht wird, dass ein hochwertiges digitales menschliches Video mit nur einem einzigen Foto und einer Audioaufnahme erzeugt wird.

Fälle generierenDie folgende Abbildung zeigt die SadTalker Generierte digitale menschliche Effekte. Im Vergleich zu Wav2Lip hat SadTalker die Natürlichkeit der Gesichtsbewegungen verbessert, da der Kopf nicht mehr völlig statisch ist, sondern einige leichte Bewegungen hinzugefügt wurden. Bei näherer Betrachtung fällt jedoch auf, dass die Figur an den Rändern immer noch etwas schief steht. Das war's also. SadTalker erweitert, um digitale Menschen mit Hilfe von Porträtvideos zu erzeugen

Anforderungen an die KonfigurationDa SadTalker verbesserte digitale Menschen erzeugt, sind die Hardwareanforderungen entsprechend gestiegen. Es wird empfohlen, eine GPU mit 6 GB RAM zu verwenden, um einen reibungslosen Betrieb zu gewährleisten. Wenn Sie eine GPU mit weniger als 6 GB RAM oder eine CPU verwenden, wird die Generierungsgeschwindigkeit langsamer sein. Es dauert etwa 10-20 Minuten, um ein digitales menschliches Video von etwa 1 Minute zu erzeugen.

3 MuseTalk: von Tencent, Lippensynchronisation ist genauer

MuseTalk MuseTalk ist ein von Tencent ins Leben gerufenes digitales Menschenprojekt, das sich auf die Erzeugung lippensynchroner digitaler Menschen in Echtzeit konzentriert. Die Kerntechnologie von MuseTalk besteht in der Fähigkeit, das Gesichtsbild des digitalen Charakters auf der Grundlage des Audiosignals automatisch anzupassen, wodurch sichergestellt wird, dass die Lippenform in hohem Maße mit dem Audioinhalt übereinstimmt, wodurch ein natürlicherer Lippensynchronisationseffekt erzielt wird.

Fälle generierenDie folgende Abbildung zeigt die Wirkung der von MuseTalk erzeugten digitalen Person. Wie Sie sehen können, hat MuseTalk SadTalker verbessert, die Kopf- und Gesichtsbewegungen sind natürlicher und die Fehlausrichtung der Kanten wurde abgeschwächt. Die Feinheiten der Lippenanimation können jedoch noch verbessert werden.

Anforderungen an die KonfigurationDie Hardware-Anforderungen von MuseTalk sind ähnlich wie die von SadTalker, und ein Grafikprozessor mit 6 GB Videospeicher wird für ein besseres Betriebserlebnis empfohlen. Es dauert etwa 10-20 Minuten, um ein 1-minütiges Video von einer digitalen Person zu erstellen.

4. hallo: Baidu & Fudan & ETH Zürich & Nanjing University Gemeinschaftsproduktion, der Effekt ist erstaunlich!

Hallo Hallo, ein von Baidu in Zusammenarbeit mit der Fudan Universität, der ETH Zürich und der Nanjing Universität entwickeltes digitales Menschenprojekt, hat bedeutende Fortschritte im Bereich der audiogestützten Erzeugung von Porträtanimationen erzielt. Hallo nutzt fortschrittliche KI-Technologie, um realistische und dynamische Porträtvideos auf der Grundlage von Spracheingaben zu erzeugen. Die Technologie analysiert die Spracheingabe eingehend, um Gesichtsbewegungen, einschließlich Lippen, Mimik und Kopfhaltung, zu synchronisieren, was zu einem beeindruckenden digitalen menschlichen Effekt führt.

Fälle generierenDie folgende Abbildung zeigt die Hallo Die Wirkung des generierten digitalen Menschen. Die von Hallo generierten Figuren sind ein Quantensprung gegenüber früheren Lösungen, was die Klarheit, den Reichtum der Kopfbewegungen und die Subtilität der Gesichtsausdrücke angeht.

Anforderungen an die KonfigurationHallo: Obwohl Hallo hervorragende Effekte hat, erfordert es auch eine höhere Hardwareleistung. Meinem Bericht zufolge wird eine GPU mit mehr als 10 GB Videospeicher empfohlen, um das Programm reibungslos ausführen zu können. Für die Erstellung eines 1-minütigen Videos einer digitalen Person werden 30-40 Minuten an Rechenzeit benötigt.

5. livePortrait: Racer open source, nahtloses Nähen mit mehreren Zeichen

LivePortrait ist ein aufsehenerregendes digitales Personenprojekt, das von Racer freigegeben wurde. Seine Einzigartigkeit besteht darin, dass es nicht nur die Blickrichtung der Figur und das Öffnen und Schließen der Lippen genau steuern kann, sondern auch in der Lage ist, mehrere Porträts von Personen nahtlos aneinander zu setzen.

Fälle generierenDie folgende Abbildung zeigt die LivePortrait Generierter digitaler Personeneffekt. Wie Sie sehen können, verarbeitet LivePortrait Mehrpersonen-Szenen mit sehr weichen und natürlichen Übergängen zwischen den Charakteren, ohne abrupte Ränder oder Splicing-Marken.

Anforderungen an die KonfigurationIm Vergleich zu Hallo stellt LivePortrait geringere Anforderungen an die Hardware und sorgt gleichzeitig für hervorragende Generierungsergebnisse. Meiner Einschätzung nach kann eine GPU mit 8 GB RAM das Programm reibungslos ausführen, eine GPU mit 6 GB RAM dagegen kaum. Es dauert etwa 10-20 Minuten, um ein 1-minütiges digitales menschliches Video zu erstellen.

6. echoMimic: Audio- und Video-Doppellaufwerk, realistischer und natürlicher

Die herkömmliche digitale Humantechnologie stützt sich entweder auf audio- oder gesichtspunktgesteuerte Verfahren, die jeweils ihre eigenen Vor- und Nachteile haben. Während EchoMimic Stattdessen werden diese beiden Steuerungsmethoden geschickt kombiniert, um eine realistischere und natürlichere dynamische Porträtgenerierung durch doppeltes Training von Audio- und Gesichtspunkten zu erreichen.
你的专属数字人？六大开源数字人方案终极PK：效果对比一目了然！

Fälle generierenDie folgende Abbildung zeigt die Wirkung eines von EchoMimic generierten digitalen Menschen. Wie Sie sehen können, sind die Gesichtsausdrücke und Körperbewegungen des von EchoMimic generierten digitalen Menschen so natürlich und geschmeidig, dass es fast schwierig ist, den echten von dem gefälschten Exemplar zu unterscheiden.

Anforderungen an die KonfigurationDie Generierungsergebnisse von EchoMimic wurden erheblich verbessert, ohne dass die Hardware-Anforderungen signifikant gestiegen sind. Ein Grafikprozessor mit 8 GB RAM läuft problemlos. Allerdings ist die Generierungszeit leicht erhöht und es dauert etwa 15-30 Minuten, um ein einminütiges digitales menschliches Video zu verarbeiten.

Zusammenfassung und Ausblick

Die Geschwindigkeit der Entwicklung der digitalen Humantechnologie ist erstaunlich und durchbricht ständig die Grenzen der menschlichen Vorstellungskraft. Um die Auswirkungen der verschiedenen Open-Source-Technologien auf den Menschen intuitiver darzustellen, hat der Autor eine Vergleichstabelle des technologischen Fortschritts erstellt:

Da die KI-Technologie weiter voranschreitet, haben wir Grund zu der Annahme, dass in Zukunft immer mehr leistungsstarke Open-Source-KI-Projekte für digitale Menschen entstehen werden. Wenn Sie neugierig auf die Technologie des digitalen Menschen sind und die verblüffenden Effekte des digitalen Menschen erleben möchten, ist jetzt der beste Zeitpunkt dafür. Lassen Sie uns gemeinsam die florierende Entwicklung und die unendlichen Möglichkeiten der digitalen Menschentechnologie erleben!

AI-Nachrichten

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

LiblibAI-API unterstützt jetzt den Aufruf des ComfyUI-Workflows!

AI-Nachrichten

vor 8 Monaten

012.4K

DeepSeek API: Großflächige Anwendung der Festplatten-Caching-Technologie: ein wichtiger Schritt bei der Zivilisierung großer Modelle

AI-Nachrichten

vor 7 Monaten

010.4K

YouTube Shorts integriert Veo 2 für KI-Videohintergrund und Clip-Generierung

AI-Nachrichten

vor 7 Monaten

07.9K

Verabschieden Sie sich von lokalen Entwicklungsumgebungen! Kostenlose Online-KI-IDEs von Tencent, Microsoft und Google helfen Ihnen bei den ersten Schritten!

AI-Nachrichten

vor 7 Monaten

010.5K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

Ihr exklusiver digitaler Mensch? Die ultimative PK von sechs Open-Source-Digital-Person-Lösungen: ein Vergleich der Ergebnisse auf einen Blick!

Digitale Menschen: das "heiße Eisen" im Bereich der KI

Was ist die beste quelloffene digitale Humantechnologie? Eine knallharte Bewertung von sechs Projekten

1. wav2lip: ein Vertreter der ersten Generation der Digital Human Technology

2. der SadTalker: ein fortschrittliches Programm für natürlichere Gesichtsbewegungen

3 MuseTalk: von Tencent, Lippensynchronisation ist genauer

4. hallo: Baidu & Fudan & ETH Zürich & Nanjing University Gemeinschaftsproduktion, der Effekt ist erstaunlich!

5. livePortrait: Racer open source, nahtloses Nähen mit mehreren Zeichen

6. echoMimic: Audio- und Video-Doppellaufwerk, realistischer und natürlicher

Zusammenfassung und Ausblick

o3 Praktische Demonstration der Überlegenheit von generischen Inferenzmodellen gegenüber spezialisierten Programmiermodellen im Bereich der Programmierung

Baidu ist zur Vernunft gekommen, und die Wenshin Intelligent Body Platform wird vollen Zugang zu DeepSeek haben!

Ähnliche Artikel

LiblibAI-API unterstützt jetzt den Aufruf des ComfyUI-Workflows!

DeepSeek API: Großflächige Anwendung der Festplatten-Caching-Technologie: ein wichtiger Schritt bei der Zivilisierung großer Modelle

YouTube Shorts integriert Veo 2 für KI-Videohintergrund und Clip-Generierung

Verabschieden Sie sich von lokalen Entwicklungsumgebungen! Kostenlose Online-KI-IDEs von Tencent, Microsoft und Google helfen Ihnen bei den ersten Schritten!

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

Ihr exklusiver digitaler Mensch? Die ultimative PK von sechs Open-Source-Digital-Person-Lösungen: ein Vergleich der Ergebnisse auf einen Blick!

Digitale Menschen: das "heiße Eisen" im Bereich der KI

Was ist die beste quelloffene digitale Humantechnologie? Eine knallharte Bewertung von sechs Projekten

1. wav2lip: ein Vertreter der ersten Generation der Digital Human Technology

2. der SadTalker: ein fortschrittliches Programm für natürlichere Gesichtsbewegungen

3 MuseTalk: von Tencent, Lippensynchronisation ist genauer

4. hallo: Baidu & Fudan & ETH Zürich & Nanjing University Gemeinschaftsproduktion, der Effekt ist erstaunlich!

5. livePortrait: Racer open source, nahtloses Nähen mit mehreren Zeichen

6. echoMimic: Audio- und Video-Doppellaufwerk, realistischer und natürlicher

Zusammenfassung und Ausblick

o3 Praktische Demonstration der Überlegenheit von generischen Inferenzmodellen gegenüber spezialisierten Programmiermodellen im Bereich der Programmierung

Baidu ist zur Vernunft gekommen, und die Wenshin Intelligent Body Platform wird vollen Zugang zu DeepSeek haben!

Ähnliche Artikel

LiblibAI-API unterstützt jetzt den Aufruf des ComfyUI-Workflows!

DeepSeek API: Großflächige Anwendung der Festplatten-Caching-Technologie: ein wichtiger Schritt bei der Zivilisierung großer Modelle

YouTube Shorts integriert Veo 2 für KI-Videohintergrund und Clip-Generierung

Verabschieden Sie sich von lokalen Entwicklungsumgebungen! Kostenlose Online-KI-IDEs von Tencent, Microsoft und Google helfen Ihnen bei den ersten Schritten!

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel