AIパーソナル・ラーニング
と実践的なガイダンス
資源推薦1

あなた専用のデジタルパーソン?6つのオープンソース・デジタルパーソン・ソリューションの究極のPK:一目でわかる結果の比較!

最近、AI界では、デジタルヒューマン技術は本当に熱い混乱、様々な "オープンソース最強 "デジタルヒューマンプログラムエンドレス、まぶしい。筆者もデジタルヒューマン統合パッケージの数を共有しているが、非常に多くの選択肢に直面して、それは必然的に人々が混乱し、彼らに最も適しているかわからない。

前回までの読者向け紹介12人の無料現地配備デジタルピープルいわゆる "選ぶのが難しい "というのは現代人の共通の悩みであるため、みんなの悩みを解決するために、今回はデジタル6人分の在庫を一挙公開!


著者は、デジタル・ピープルに関連する、これまで共有されてきたリソースの包括的な目録を作成し、それらを詳細に比較する。 実現効果、構成要件、生成時間 といった重要な情報を提供する。 一目瞭然 オープンソースのデジタルヒューマン技術の現状を理解することで、あなたに最適な「デジタルヒューマン」を選ぶことができます。

 

デジタルピープル:AI分野の「ホット・ヒヨコ

今、AIで最もホットなテクノロジーといえば、デジタルピープルは間違いなくそのリストに入っている。

AIペインティング・パブリッシャー 安定性AI 価格競争に巻き込まれた国内外の大手モデルメーカーの頻繁な閉鎖や「インボリューション」の状況とは異なり、デジタルピープルはAI分野で真のビジネス価値と利益の可能性を示している。

一例として、今年4月中旬、京東の創業者・劉強東のデジタル人物「菜心東哥」が京東の生放送で公開されたが、そのリアルさは驚くべきもので、話すスピードやアクセントが実際の人物に酷似しているだけでなく、癖のある動作までほとんど同じだった。

"ドンガオ "はスピーチ中、時折指をこすり合わせ、ポイントを強調するときには大きくジェスチャーをし、自然な形で首をかしげる。野次馬の多くは、彼がデジタルの人間であることがほとんどわからなかったという!

このデジタル・ヒューマン・ライブ・ショーのデビューは1時間足らずで、視聴者数は2000万人を超え、ライブ全体の累積売上高は以下の通りである。 5000万ドル 人民元

デビューショーが大成功を収めたことで、京東は今年の618プロモーションで「社長デジタルマンライブ」活動を開始した。Gree、Hisense、LG、Mingchuangyoupin、Jelia、Corvus、vivo、Samsungなど多くの有名企業幹部がデジタル人に変身し、個人的に商品と一緒にライブダウンした。

京東の公式データによると、現在までに、京東言犀デジタル人は5000以上のブランドのサービスを蓄積し、商品取引総額(GMV)に牽引された。 100億ドル以上 人民元。

デジタル・パーソンが示す巨大なビジネスの可能性は、ますます多くの人々の注目を集めている。ピック・アンド・セル・ドン」のようなデジタルパーソンを実現するコストはまだ高くないが、AI技術の急速な発展に伴い、オープンソースコミュニティはより多くの多機能で強力なデジタルパーソンプロジェクトを生み出し、技術的な敷居を大幅に下げている。

次に、これらの優れたオープンソースのデジタルピープル・プロジェクトの詳細な目録を紹介しよう。

 

最高のオープンソース・デジタル・ヒューマン・テクノロジーとは?6つのプロジェクトのハードコア評価

かつてはSF映画の中にしか存在しなかった概念であるデジタルヒューマン技術が、徐々に現実のものになりつつある。人工知能技術の急速な進歩に伴い、オープンソースのデジタル人間の分野も競争が激しくなり、大手研究機関やテクノロジー企業が独自のオープンソース・ソリューションを発表している。

以下では、代表的な6つのオープンソース・デジタル・ピープル・プロジェクトを詳細にレビューし、その結果を紹介する。 技術開発順 デジタル・ヒューマン・テクノロジーの進化を直感的に理解できるよう、序章が設けられている。

1.Wav2lip:デジタル・ヒューマン・テクノロジー第一世代の代表格

Wav2Lip アルゴリズムは、ディープラーニングに基づく音声駆動型フェイシャルアニメーション生成アルゴリズムであり、初期のデジタルヒューマン技術においてより広く使用されている方式である。コアとなるアイデアは、音声信号の情報をフェイシャルアニメーションパラメータにマッピングし、音声と同期したフェイシャルアニメーションを生成することである。

  • ケースの生成下図を参照。 Wav2Lip 生成されたデジタル人物の効果。画像内のキャラクターの顔の動きは硬く、主に唇の機械的な動きに重点が置かれており、デジタル人物の全体的な成熟度は比較的低いことがわかる。

Wav2Lip デジタル・ヒューマン・エフェクト

  • 構成要件: Wav2Lipはハードウェア要件が低く、GPUと4GBのRAMがあれば動作します。1分間のデジタル・ヒューマン・ビデオを生成するのにかかる処理時間は約5~15分です。

2.サドトーカー:より自然な顔の動きのための高度なプログラム

サドトーカー は西安交通大学によるオープンソースプロジェクトで、音声から学習して3Dモーション係数を生成し、新しい3D顔レンダラーと組み合わせて頭の動きを生成することで、1枚の写真と音声だけで高品質なデジタル人物映像を生成する効果を実現している。

サドトーカー デジタル・ヒューマン・エフェクト

  • 構成要件SadTalker がより優れたデジタルピープルを生成するようになったため、ハードウェアの要件が増えました。スムーズな動作のために、6GBのRAMを搭載したGPUの使用を推奨します。RAMが6GB以下のGPUやCPUを使用すると、生成速度が遅くなります。1分程度のデジタルヒューマンビデオを生成するのに10~20分程度の処理時間がかかります。

3.ミューズトーク:テンセントから、リップシンクはより正確に

ミューズトーク MuseTalkのコア技術は、音声信号に基づいてデジタルキャラクターの顔画像を自動的に調整する能力にあり、唇の形状が音声コンテンツと高度に一致するようにすることで、より自然なリップシンクロ効果を実現している。

  • ケースの生成下図は、MuseTalkで生成したデジタル人物の効果です。ご覧のように、MuseTalkはSadTalkerより改善され、頭や顔の動きがより自然になり、エッジのズレも緩和されています。しかし、唇のアニメーションの細かさにはまだ改善の余地がある。

ミューズトーク デジタル・ヒューマン・エフェクト

  • 構成要件MuseTalkのハードウェア要件はSadTalkerと同様で、より快適に動作させるためには6GBのビデオメモリを搭載したGPUを推奨します。デジタル人物の1分間のビデオを生成するのに約10-20分かかります。

4.百度&復旦&チューリッヒ工科大&南京大合作、効果は絶大!

こんにちは バイドゥが復旦大学、チューリッヒ工科大学、南京大学と共同で開発したデジタルヒューマンプロジェクト「Hallo」は、音声駆動型肖像アニメーション生成の分野で大きな進歩を遂げた。Halloは高度なAI技術を活用し、音声入力に基づいてリアルでダイナミックな肖像映像を生成する。この技術は音声入力を深く分析し、唇、表情、頭のポーズを含む顔の動きを同期させ、印象的なデジタルヒューマン効果をもたらす。

  • ケースの生成下図を参照。 こんにちは 生成されたデジタル人間の効果。ハロが生成した人物は、鮮明さ、頭の動きの豊かさ、表情の繊細さにおいて、これまでのソリューションから飛躍的に進歩している。

ハロ・デジタル・ヒューマン・エフェクト

  • 構成要件Hallo: Halloは卓越したエフェクトを持つが、同時に高いハードウェア性能も要求される。私のレビューによると、スムーズに動作させるには10GB以上のビデオメモリを搭載したGPUを使用することが推奨されている。デジタル人物の1分間の動画を生成するのに30~40分の処理時間がかかる。

5.LivePortrait:レーサーオープンソース、多文字シームレスステッチ

ライブポートレート は、レーサーによってオープンソース化された人目を引くデジタル人物プロジェクトである。そのユニークさは、人物の視線の方向や唇の開閉を正確にコントロールできるだけでなく、複数の人物の肖像をシームレスにつなぎ合わせることができることだ。

  • ケースの生成下図を参照。 ライブポートレート 生成されたデジタル人物エフェクト。ご覧のように、LivePortraitは、突然の境界線やスプライシングマークがない、非常にスムーズで自然なキャラクター間のトランジションで、複数人のシーンを処理します。

ライブポートレート デジタル・ヒューマン・エフェクト

  • 構成要件Halloと比較して、LivePortraitは、優れた生成結果を保証しながら、ハードウェア要件が低い。私の評価によると、8GBのRAMを搭載したGPUならスムーズに動作させることができ、6GBのRAMを搭載したGPUならかろうじて動作させることができる。1分間のデジタルヒューマンビデオを生成するのに約10-20分かかる。

6.エコーミミック:オーディオとビデオのデュアルドライブ、より現実的で自然な

従来のデジタル・ヒューマン・テクノロジーは、音声駆動か顔キーポイント駆動のどちらかに依存しており、それぞれに長所と短所がある。一方 エコーミミック その代わりに、この2つの駆動方法を巧みに組み合わせ、音声と顔のキーポイントのデュアルトレーニングによって、よりリアルで自然なダイナミックポートレート生成を実現します。
エコーミミックの比較

  • ケースの生成次の図は、EchoMimicによって生成されたデジタルヒューマンの効果を示しています。ご覧のように、EchoMimicで生成されたデジタルヒューマンの表情や体の動きは、本物と偽物の区別がつかないほど自然で滑らかです。

エコーミミック・デジタル・ヒューマンエフェクト

  • 構成要件EchoMimicの生成結果は、ハードウェア要件を大幅に増やすことなく大幅に改善され、8GBのRAMを搭載したGPUでスムーズに動作します。ただし、生成時間は若干増加し、1分間のデジタル・ヒューマン・ビデオを処理するのに約15~30分かかる。

 

総括と展望

デジタル・ヒューマン・テクノロジーの発展スピードは驚くべきもので、常に人々の想像力の限界を突破している。様々なオープンソースのデジタルヒューマン技術強化の効果をより直感的に示すために、筆者は技術進歩の比較表を作成した:

オープンソースのデジタル・ヒューマン・テクノロジーの効果の比較

AI技術の進歩に伴い、今後ますます強力なオープンソースのAIデジタルピープル・プロジェクトが登場すると信じるに足る理由がある。もしあなたがデジタルヒューマン技術に興味があり、デジタルヒューマンの素晴らしい効果を体験したいと思っているなら、今がその絶好のチャンスです。デジタルヒューマン技術の盛んな発展と無限の可能性を一緒に目撃しましょう!

目次3
無断転載を禁じます:チーフAIシェアリングサークル " あなた専用のデジタルパーソン?6つのオープンソース・デジタルパーソン・ソリューションの究極のPK:一目でわかる結果の比較!

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語