AI Personal Learning
und praktische Anleitung
Tools herunterladen

Ihr exklusiver digitaler Mensch? Die ultimative PK von sechs Open-Source-Lösungen für digitale Personen: ein Vergleich der Ergebnisse auf einen Blick!

Kürzlich, in der AI-Kreis, der digitalen menschlichen Technologie ist wirklich ein heißes Durcheinander, eine Vielzahl von "Open Source die stärkste" digitale menschliche Programm endlos, blendend. Obwohl der Autor hat auch eine Reihe von digitalen menschlichen Integration Pakete geteilt, aber angesichts der vielen Möglichkeiten, ist es unvermeidlich, dass die Menschen verwirrt sein wird, nicht wissen, welche die am besten geeignete für sie ist.

Zuvor für die Leser eingeführt:12 kostenlose, lokal eingesetzte digitale MitarbeiterDa die so genannte "schwer zu wählen" ist ein gemeinsames Problem der zeitgenössischen Menschen, um die Probleme der jeder zu lösen, dieses Mal ein Hauch von sechs digitalen Menschen zu inventarisieren!


Der Autor wird eine umfassende Bestandsaufnahme der bisher gemeinsam genutzten Ressourcen im Zusammenhang mit digitalen Menschen durchführen und sie im Detail vergleichen Realisierungseffekte, Konfigurationsanforderungen, Generierungszeit und andere wichtige Informationen, die es jedem ermöglichen übersichtlich auf einen Blick Verstehen Sie den aktuellen Stand der Technik in der Open-Source-Technologie für digitale Menschen, damit Sie den für Sie am besten geeigneten "digitalen Menschen" auswählen können.

 

Digitale Menschen: das "heiße Eisen" im Bereich der KI

Wenn es um die derzeit heißeste Technologie im Bereich der künstlichen Intelligenz geht, stehen digitale Menschen ganz oben auf der Liste.

Mit AI Painting Publisher Stabilität AI Im Gegensatz zu den häufigen Nachrichten über Schließungen und die "Rückentwicklung" großer in- und ausländischer Modellhersteller, die in einen Preiskampf verwickelt sind, haben digitale Menschen im Bereich der künstlichen Intelligenz einen echten Geschäftswert und ein Gewinnpotenzial gezeigt.

So wurde beispielsweise Mitte April dieses Jahres die digitale Person "Caixin Dongge" des Jingdong-Gründers Liu Qiangdong in der Jingdong-Live-Sendung vorgestellt, und ihr Realitätsgrad ist verblüffend: Nicht nur die Geschwindigkeit der Sprache und der Akzent sind der realen Person sehr ähnlich, auch die gewohnten Bewegungen sind fast genau dieselben.

"Donggao" reibt während seiner Rede von Zeit zu Zeit die Finger aneinander, und wenn er einen Punkt betont, macht er eine größere Geste und nickt auf natürliche Weise mit dem Kopf. Viele Zuschauer sagten, sie könnten kaum erkennen, dass er ein digitaler Mensch ist!

Das Debüt dieser digitalen menschlichen Live-Show in weniger als einer Stunde, die Zahl der Zuschauer überschritten 20 Millionen, der kumulierte Umsatz der gesamten Live ist mehr als 50 Millionen Renminbi (RMB)

Der große Erfolg der Debüt-Show hat Jingdong direkt dazu veranlasst, die "President Digital Man Live"-Aktivität während der 618 Promotion in diesem Jahr zu starten. Gree, Hisense, LG, Mingchuangyoupin, Jelia, Corvus, vivo, Samsung und viele andere bekannte Unternehmen Führungskräfte wurden in digitale Menschen verwandelt, persönlich unten leben mit Waren.

Jingdong offiziellen Daten zeigen, dass bis jetzt, Jingdong Rede Rhinozeros digitalen Menschen haben Dienstleistungen mehr als 5000 Marken angesammelt, durch den Gesamtbetrag der Warentransaktionen (GMV) angetrieben Über 10 Milliarden Dollar RMB.

Das enorme Geschäftspotenzial der digitalen Menschen hat die Aufmerksamkeit von immer mehr Menschen auf sich gezogen. Obwohl die Kosten für die Realisierung einer digitalen Person wie "Pick and Sell Dong" noch nicht hoch sind, hat die Open-Source-Gemeinschaft mit der rasanten Entwicklung der KI-Technologie immer mehr multifunktionale und leistungsstarke Projekte für digitale Personen entwickelt, die die technische Schwelle erheblich senken.

Als Nächstes möchte ich Ihnen eine detaillierte Aufstellung dieser hervorragenden Open-Source-Projekte für digitale Menschen geben.

 

Was ist die beste quelloffene digitale Humantechnologie? Eine knallharte Bewertung von sechs Projekten

Die Technologie des digitalen Menschen, ein Konzept, das früher nur in Science-Fiction-Filmen existierte, kommt allmählich in der Realität an. Mit dem rasanten Fortschritt der Technologie der künstlichen Intelligenz ist auch der Bereich der quelloffenen digitalen Menschen hart umkämpft, wobei große Forschungseinrichtungen und Technologieunternehmen ihre eigenen quelloffenen Lösungen auf den Markt bringen.

Im Folgenden werde ich einen detaillierten Überblick über sechs repräsentative Open-Source-Projekte für digitale Menschen geben und In der Reihenfolge der technologischen Entwicklung Es wird eine Einführung gegeben, um ein intuitives Verständnis für die Entwicklung der digitalen Humantechnologie zu ermöglichen.

1. wav2lip: ein Vertreter der ersten Generation der Digital Human Technology

Wav2Lip Der Algorithmus ist ein sprachgesteuerter Algorithmus zur Erzeugung von Gesichtsanimationen auf der Grundlage von Deep Learning, einem in der frühen digitalen Humantechnologie weit verbreiteten Verfahren. Die Kernidee besteht darin, die Informationen im Sprachsignal auf die Parameter der Gesichtsanimation abzubilden, um eine mit der Sprache synchronisierte Gesichtsanimation zu erzeugen.

  • Fälle generierenDie folgende Abbildung zeigt die Wav2Lip Generierter digitaler menschlicher Effekt. Es ist zu erkennen, dass die Gesichtsbewegungen der Figuren im Bild steif sind und sich hauptsächlich auf die mechanischen Bewegungen der Lippen konzentrieren, und die allgemeine Reife des digitalen Menschen ist relativ gering.

Wav2Lip Digitale menschliche Effekte

  • Anforderungen an die KonfigurationWav2Lip hat geringe Hardware-Anforderungen und benötigt nur eine GPU mit 4 GB RAM. Es dauert etwa 5-15 Minuten, um ein 1-minütiges digitales menschliches Video zu erstellen.

2. der SadTalker: ein fortschrittliches Programm für natürlichere Gesichtsbewegungen

SadTalker ist ein Open-Source-Projekt der Xi'an Jiaotong University, das 3D-Bewegungskoeffizienten durch Lernen aus Audioaufnahmen generiert und diese mit einem neuen 3D-Gesichtsrenderer kombiniert, um Kopfbewegungen zu erzeugen, wodurch der Effekt erzielt wird, dass ein hochwertiges digitales menschliches Video mit nur einem einzigen Foto und einer Audioaufnahme erzeugt wird.

  • Fälle generierenDie folgende Abbildung zeigt die SadTalker Generierte digitale menschliche Effekte. Im Vergleich zu Wav2Lip hat SadTalker die Natürlichkeit der Gesichtsbewegungen verbessert, da der Kopf nicht mehr völlig statisch ist, sondern einige leichte Bewegungen hinzugefügt wurden. Bei näherer Betrachtung fällt jedoch auf, dass die Figur an den Rändern immer noch etwas schief steht. Das war's also. SadTalker erweitert, um digitale Menschen mit Hilfe von Porträtvideos zu erzeugen

SadTalker Digital Human Effect

  • Anforderungen an die KonfigurationDa SadTalker verbesserte digitale Menschen erzeugt, sind die Hardwareanforderungen entsprechend gestiegen. Es wird empfohlen, eine GPU mit 6 GB RAM zu verwenden, um einen reibungslosen Betrieb zu gewährleisten. Wenn Sie eine GPU mit weniger als 6 GB RAM oder eine CPU verwenden, wird die Generierungsgeschwindigkeit langsamer sein. Es dauert etwa 10-20 Minuten, um ein digitales menschliches Video von etwa 1 Minute zu erzeugen.

3 MuseTalk: von Tencent, Lippensynchronisation ist genauer

MuseTalk MuseTalk ist ein von Tencent ins Leben gerufenes digitales Menschenprojekt, das sich auf die Erzeugung lippensynchroner digitaler Menschen in Echtzeit konzentriert. Die Kerntechnologie von MuseTalk besteht in der Fähigkeit, das Gesichtsbild des digitalen Charakters auf der Grundlage des Audiosignals automatisch anzupassen, wodurch sichergestellt wird, dass die Lippenform in hohem Maße mit dem Audioinhalt übereinstimmt, wodurch ein natürlicherer Lippensynchronisationseffekt erzielt wird.

  • Fälle generierenDie folgende Abbildung zeigt die Wirkung der von MuseTalk erzeugten digitalen Person. Wie Sie sehen können, hat MuseTalk SadTalker verbessert, die Kopf- und Gesichtsbewegungen sind natürlicher und die Fehlausrichtung der Kanten wurde abgeschwächt. Die Feinheiten der Lippenanimation können jedoch noch verbessert werden.

MuseTalk Digitale menschliche Wirkung

  • Anforderungen an die KonfigurationDie Hardware-Anforderungen von MuseTalk sind ähnlich wie die von SadTalker, und ein Grafikprozessor mit 6 GB Videospeicher wird für ein besseres Betriebserlebnis empfohlen. Es dauert etwa 10-20 Minuten, um ein 1-minütiges Video von einer digitalen Person zu erstellen.

4. hallo: Baidu & Fudan & ETH Zürich & Nanjing University Gemeinschaftsproduktion, der Effekt ist erstaunlich!

Hallo Hallo, ein von Baidu in Zusammenarbeit mit der Fudan Universität, der ETH Zürich und der Nanjing Universität entwickeltes digitales Menschenprojekt, hat bedeutende Fortschritte im Bereich der audiogestützten Erzeugung von Porträtanimationen erzielt. Hallo nutzt fortschrittliche KI-Technologie, um realistische und dynamische Porträtvideos auf der Grundlage von Spracheingaben zu erzeugen. Die Technologie analysiert die Spracheingabe eingehend, um Gesichtsbewegungen, einschließlich Lippen, Mimik und Kopfhaltung, zu synchronisieren, was zu einem beeindruckenden digitalen menschlichen Effekt führt.

  • Fälle generierenDie folgende Abbildung zeigt die Hallo Die Wirkung des generierten digitalen Menschen. Die von Hallo generierten Figuren sind ein Quantensprung gegenüber früheren Lösungen, was die Klarheit, den Reichtum der Kopfbewegungen und die Subtilität der Gesichtsausdrücke betrifft.

Hallo Digital Human Effect

  • Anforderungen an die KonfigurationHallo: Obwohl Hallo hervorragende Effekte hat, erfordert es auch ein höheres Maß an Hardware-Leistung. Meinem Bericht zufolge wird empfohlen, eine GPU mit mehr als 10 GB Videospeicher zu verwenden, um das Programm reibungslos ausführen zu können. Für die Erstellung eines 1-minütigen Videos einer digitalen Person werden 30-40 Minuten Verarbeitungszeit benötigt.

5. livePortrait: Racer open source, nahtloses Nähen mit mehreren Zeichen

LivePortrait ist ein aufsehenerregendes digitales Personenprojekt, das von Racer freigegeben wurde. Seine Einzigartigkeit besteht darin, dass es nicht nur die Blickrichtung der Figur und das Öffnen und Schließen der Lippen genau steuern kann, sondern auch in der Lage ist, mehrere Porträts von Personen nahtlos aneinander zu setzen.

  • Fälle generierenDie folgende Abbildung zeigt die LivePortrait Generierter digitaler Personeneffekt. Wie Sie sehen können, handhabt LivePortrait Mehrpersonen-Szenen mit sehr weichen und natürlichen Übergängen zwischen den Charakteren, ohne abrupte Ränder oder Splicing-Marken.

LivePortrait Digitaler menschlicher Effekt

  • Anforderungen an die KonfigurationIm Vergleich zu Hallo stellt LivePortrait geringere Anforderungen an die Hardware und sorgt gleichzeitig für hervorragende Generierungsergebnisse. Meiner Einschätzung nach kann eine GPU mit 8 GB RAM das Programm reibungslos ausführen, eine GPU mit 6 GB RAM dagegen kaum. Es dauert etwa 10-20 Minuten, um ein 1-minütiges digitales menschliches Video zu erstellen.

6. echoMimic: Audio- und Video-Doppellaufwerk, realistischer und natürlicher

Die herkömmliche digitale Humantechnologie stützt sich entweder auf audio- oder gesichtspunktgesteuerte Verfahren, die jeweils ihre eigenen Vor- und Nachteile haben. Während EchoMimic Stattdessen werden diese beiden Steuerungsmethoden geschickt kombiniert, um eine realistischere und natürlichere dynamische Porträtgenerierung durch doppeltes Training von Audio- und Gesichtspunkten zu erreichen.
EchoMimic Vergleich

  • Fälle generierenDie folgende Abbildung zeigt die Wirkung eines von EchoMimic generierten digitalen Menschen. Wie Sie sehen können, sind die Gesichtsausdrücke und Körperbewegungen des von EchoMimic generierten digitalen Menschen so natürlich und geschmeidig, dass es fast schwierig ist, den echten von dem gefälschten Exemplar zu unterscheiden.

EchoMimic Digital Human Effect

  • Anforderungen an die KonfigurationDie Generierungsergebnisse von EchoMimic wurden erheblich verbessert, ohne dass die Hardware-Anforderungen signifikant gestiegen sind. Ein Grafikprozessor mit 8 GB RAM läuft problemlos. Allerdings ist die Generierungszeit leicht erhöht, und es dauert etwa 15-30 Minuten, um ein einminütiges Video einer digitalen Person zu generieren.

 

Zusammenfassung und Ausblick

Die Geschwindigkeit der Entwicklung der digitalen Humantechnologie ist erstaunlich und durchbricht ständig die Grenzen der menschlichen Vorstellungskraft. Um die Auswirkungen der verschiedenen Open-Source-Technologien für den Menschen intuitiver darzustellen, hat der Autor eine Vergleichstabelle des technologischen Fortschritts erstellt:

Vergleich der Auswirkungen von quelloffenen digitalen Humantechnologien

Da die KI-Technologie weiter voranschreitet, haben wir Grund zu der Annahme, dass in Zukunft immer mehr leistungsstarke Open-Source-KI-Projekte für digitale Menschen entstehen werden. Wenn Sie neugierig auf die Technologie des digitalen Menschen sind und die verblüffenden Effekte des digitalen Menschen erleben möchten, ist jetzt der beste Zeitpunkt dafür. Lassen Sie uns gemeinsam die florierende Entwicklung und die unendlichen Möglichkeiten der digitalen Menschentechnologie erleben!

Inhalt 1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Ihr exklusiver digitaler Mensch? Die ultimative PK von sechs Open-Source-Lösungen für digitale Personen: ein Vergleich der Ergebnisse auf einen Blick!

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)