はじめに
LiteAvatarは、HumanAIGCチーム(Aliの一部)によって開発されたオープンソースツールで、音声駆動型の2Dアバターからリアルタイムでフェイシャルアニメーションを生成することに重点を置いています。LiteAvatarは、音声認識(ASR)と口予測を組み合わせて、入力された音声の特徴に基づいて、同期された表情と口の動きを生成し、滑らかで自然なアニメーション効果を実現します。このプロジェクトはGitHubでホストされており、開発者は完全なコードとドキュメントに無料でアクセスし、必要に応じて開発することができます。エンターテインメント、教育、バーチャルホスティングのいずれにおいても、このツールは軽量かつ高性能という完璧な組み合わせを実証している。
LiteAvatar リアルタイムインタラクティブ版の展開: https://github.com/HumanAIGC-Engineering/OpenAvatarChat
機能一覧
- オーディオ・ドリブン・アニメーション生成音声を入力することで、アバターの表情や口のアニメーションをリアルタイムに生成します。
- 軽量化30fpsのスムーズなアニメーションは、GPUを必要とせず、CPUだけで実現できます。
- 口のシンクロ予測ASRモデルは、音声の特徴を抽出し、発話内容に合った口の動きを生成するために使用されます。
- モバイル機器のサポート最適化されたモデルは低消費電力デバイスに適応し、携帯電話やタブレットに適しています。
- オープンソース・サポート完全なソースコードが提供されているので、ユーザーは機能をカスタマイズしたり、他のプロジェクトに統合することができます。
- リアルタイム処理能力オーディオ入力の低遅延処理により、アニメーションとサウンドの高い同期性を実現。
ヘルプの使用
LiteAvatarはGitHubベースのオープンソースプロジェクトで、インストールと使用には一定の技術的基盤が必要です。以下は、この音声駆動型2Dアバターツールをすぐに使い始めるための詳細なインストールと使用ガイドです。
設置プロセス
- 環境準備
- Python 3.8以上がコンピュータにインストールされていることを確認してください。これは
python --バージョン
バージョンを確認する。 - GitHubからコードをダウンロードするために使用するGitをインストールする。Windowsユーザーは公式ウェブサイトからGitをダウンロードでき、LinuxやmacOSユーザーはパッケージマネージャー経由でインストールできる。
sudo apt install git
). - コマンドラインをサポートするターミナルを用意する(例:CMD、Windows版PowerShell、Linux/macOS版Terminal)。
- Python 3.8以上がコンピュータにインストールされていることを確認してください。これは
- LiteAvatarプロジェクトをダウンロード
- ターミナルを開き、以下のコマンドを入力してコード・リポジトリをクローンする:
git clone https://github.com/HumanAIGC/lite-avatar.git
- クローニングが完了したら、プロジェクト・ディレクトリに移動する:
CDライトアバター
- ターミナルを開き、以下のコマンドを入力してコード・リポジトリをクローンする:
- 依存関係のインストール
- このプロジェクトには、いくつかのPythonライブラリーのサポートが必要です。以下のコマンドを実行して、依存関係をインストールしてください:
pip install -r requirements.txt
- 万が一
要件.txt
ドキュメントには特定の依存関係が記載されていませんが、プロジェクトのドキュメントを参照することができます。ナンピー
そしてトーチ
(CPUバージョン)、モデルスコープ
その他手動での取り付け例:pip install numpy torch modelscope
- このプロジェクトには、いくつかのPythonライブラリーのサポートが必要です。以下のコマンドを実行して、依存関係をインストールしてください:
- インストールの確認
- インストールが完了したら、簡単なテスト・コマンドを実行する(正確なコマンドはプロジェクトのREADMEに基づいている:
python demo.py
- エラーが報告されなければ、環境は正常に設定されている。
- インストールが完了したら、簡単なテスト・コマンドを実行する(正確なコマンドはプロジェクトのREADMEに基づいている:
使用方法
LiteAvatarの中核機能は、音声駆動アバターからアニメーションを生成することです。以下はその詳細な手順です:
オーディオファイルの準備
- オーディオフォーマット一般的なフォーマットをサポート
.wav
もしかしたらmp3
.最良の結果を得るためには、サンプリングレート16kHz前後のクリアなモノラル音声を使用することをお勧めします。 - オーディオ・ソース録音した音声でも、動画から抜き出した音声でも構いません。推奨ツール:Audacity(無料の音声編集ソフト)。
リアルタイム・アニメーションの実行
- トリガ手順
- プロジェクト・ディレクトリで、メイン・スクリプトを実行する。
main.py
(具体的なファイル名はREADMEに基づく):python main.py --audio_path your_audio_file.wav
- パラメータの説明
--オーディオパス
音声ファイルのパスを指定します。--出力
デフォルトは直接表示されます。
- プロジェクト・ディレクトリで、メイン・スクリプトを実行する。
- リアルタイム入力テスト
- マイク入力がサポートされている場合は、リアルタイムモードを試す(READMEがこの機能を提供しているかどうかを確認する必要がある)。コマンドの例
python main.py --live
- このプログラムはマイクの入力を聞き、リアルタイムでアニメーションを生成する。
- マイク入力がサポートされている場合は、リアルタイムモードを試す(READMEがこの機能を提供しているかどうかを確認する必要がある)。コマンドの例
結果を見る
- アニメーション出力: 実行後、プログラムはアバターのアニメーションをスクリーンに表示するか、ビデオファイル(例えば
出力.mp4
). - 調整パラメーターアニメーションが満足のいくものでない場合は、ドキュメントを参照して、フレームレートやマウス感度などのモデルパラメータを調整することができます(コードの実装によって異なります)。
注目の機能操作
オーディオ・ドリブン・アニメーション生成
- 動く::
- オーディオファイルを準備する。
test.wav
. - コマンドを実行する:
python main.py --audio_path test.wav --output result.mp4
- このプログラムは、ModelScopeのASRモデルを呼び出して音声の特徴を抽出し、口元予測モデルによってアニメーションを生成する。
- オーディオファイルを準備する。
- 効果アバターの口の形や表情は音声によって変化し、例えば「こんにちは」と言うときは口が開き、歌うときはリズムが強くなる。
モバイル機器の展開
- 前提条件モデルを軽量フォーマット(ONNXなど)にエクスポートし、モバイルに統合する必要がある。
- リグ::
- ローカルでモデルを変換する(具体的なスクリプトはプロジェクトのドキュメントに追加する。
エクスポート.py
):python export.py --model lite_avatar_model.pth --output lite_avatar.onnx
- そうしれいかん
.onnx
ファイルはモバイルにデプロイされ、NCNNなどのONNX対応フレームワークを使って実行される。
- ローカルでモデルを変換する(具体的なスクリプトはプロジェクトのドキュメントに追加する。
- 結局携帯電話でのリアルタイムアニメーションを低消費電力で実現。
ほら
- パフォーマンス最適化もしラグがある場合は、設定ファイルやコマンドラインパラメータを変更することで、フレームレートを下げることができます(例:30fpsから15fpsへ)。
- テスト中にコンポーネントを調整するエラーが表示された場合は、依存関係のバージョンが一致しているかどうかを確認するか、GitHubのIssuesページでコミュニティのヘルプを確認してください。
- スケーラビリティ新しい機能(例えば絵文字コントロール)を追加したい場合は、プロジェクトをフォークしてコードを修正することができます。HumanAIGCチームは貢献者によるPull Requestの提出を歓迎します。
以上の手順で、LiteAvatarを簡単にインストールして使用し、音声駆動アバターアニメーション生成プロセスを体験することができます。このツールは、開発テストと実際のアプリケーションの両方に、効率的で便利なソリューションを提供します。