LiteAvatar：CPU上で30fpsで動作する、リアルタイムでインタラクティブなデジタル人物の音声駆動型2Dポートレート

1.8K 00

はじめに

LiteAvatarは、HumanAIGCチーム（Aliの一部）によって開発されたオープンソースツールで、音声駆動型の2Dアバターからリアルタイムでフェイシャルアニメーションを生成することに重点を置いています。LiteAvatarは、音声認識（ASR）と口予測を組み合わせて、入力された音声の特徴に基づいて、同期された表情と口の動きを生成し、滑らかで自然なアニメーション効果を実現します。このプロジェクトはGitHubでホストされており、開発者は完全なコードとドキュメントに無料でアクセスし、必要に応じて開発することができます。エンターテインメント、教育、バーチャルホスティングのいずれにおいても、このツールは軽量かつ高性能という完璧な組み合わせを実証している。

LiteAvatar リアルタイムインタラクティブ版の展開： https://github.com/HumanAIGC-Engineering/OpenAvatarChat

機能一覧

オーディオ・ドリブン・アニメーション生成音声を入力することで、アバターの表情や口のアニメーションをリアルタイムに生成します。
軽量化30fpsのスムーズなアニメーションは、GPUを必要とせず、CPUだけで実現できます。
口のシンクロ予測ASRモデルは、音声の特徴を抽出し、発話内容に合った口の動きを生成するために使用されます。
モバイル機器のサポート最適化されたモデルは低消費電力デバイスに適応し、携帯電話やタブレットに適しています。
オープンソース・サポート完全なソースコードが提供されているので、ユーザーは機能をカスタマイズしたり、他のプロジェクトに統合することができます。
リアルタイム処理能力オーディオ入力の低遅延処理により、アニメーションとサウンドの高い同期性を実現。

ヘルプの使用

LiteAvatarはGitHubベースのオープンソースプロジェクトで、インストールと使用には一定の技術的基盤が必要です。以下は、この音声駆動型2Dアバターツールをすぐに使い始めるための詳細なインストールと使用ガイドです。

設置プロセス

環境準備
- Python 3.8以上がコンピュータにインストールされていることを確認してください。これは python --version バージョンを確認する。
- GitHubからコードをダウンロードするために使用するGitをインストールする。Windowsユーザーは公式ウェブサイトからGitをダウンロードでき、LinuxやmacOSユーザーはパッケージマネージャー経由でインストールできる。 sudo apt install git).
- コマンドラインをサポートするターミナルを用意する（例：CMD、Windows版PowerShell、Linux/macOS版Terminal）。
LiteAvatarプロジェクトをダウンロード
- ターミナルを開き、以下のコマンドを入力してコード・リポジトリをクローンする：
```
git clone https://github.com/HumanAIGC/lite-avatar.git
```
- クローニングが完了したら、プロジェクト・ディレクトリに移動する：
```
cd lite-avatar
```
依存関係のインストール
- このプロジェクトには、いくつかのPythonライブラリーのサポートが必要です。以下のコマンドを実行して、依存関係をインストールしてください：
```
pip install -r requirements.txt
```
- 万が一 requirements.txt ドキュメントには特定の依存関係が記載されていませんが、プロジェクトのドキュメントを参照することができます。 numpyそしてtorch(CPUバージョン）、modelscope その他手動での取り付け例：
```
pip install numpy torch modelscope
```
インストールの確認
- インストールが完了したら、簡単なテスト・コマンドを実行する（正確なコマンドはプロジェクトのREADMEに基づいている：
```
python demo.py
```
- エラーが報告されなければ、環境は正常に設定されている。

使用方法

LiteAvatarの中核機能は、音声駆動アバターからアニメーションを生成することです。以下はその詳細な手順です：

オーディオファイルの準備

オーディオフォーマット一般的なフォーマットをサポート .wav もしかしたら .mp3.最良の結果を得るためには、サンプリングレート16kHz前後のクリアなモノラル音声を使用することをお勧めします。
オーディオ・ソース録音した音声でも、動画から抜き出した音声でも構いません。推奨ツール：Audacity（無料の音声編集ソフト）。

リアルタイム・アニメーションの実行

トリガ手順
- プロジェクト・ディレクトリで、メイン・スクリプトを実行する。 main.py(具体的なファイル名はREADMEに基づく）：
```
python main.py --audio_path your_audio_file.wav
```
- パラメータの説明
  - --audio_path音声ファイルのパスを指定します。
  - --outputデフォルトは直接表示されます。
リアルタイム入力テスト
- マイク入力がサポートされている場合は、リアルタイムモードを試す（READMEがこの機能を提供しているかどうかを確認する必要がある）。コマンドの例
```
python main.py --live
```
- このプログラムはマイクの入力を聞き、リアルタイムでアニメーションを生成する。

結果を見る

アニメーション出力: 実行後、プログラムはアバターのアニメーションをスクリーンに表示するか、ビデオファイル（例えば output.mp4).
調整パラメーターアニメーションが満足のいくものでない場合は、ドキュメントを参照して、フレームレートやマウス感度などのモデルパラメータを調整することができます（コードの実装によって異なります）。

注目の機能操作

オーディオ・ドリブン・アニメーション生成

動く::
1. オーディオファイルを準備する。 test.wav.
2. コマンドを実行する：
```
python main.py --audio_path test.wav --output result.mp4
```
3. このプログラムは、ModelScopeのASRモデルを呼び出して音声の特徴を抽出し、口元予測モデルによってアニメーションを生成する。
効果アバターの口の形や表情は音声によって変化し、例えば「こんにちは」と言うときは口が開き、歌うときはリズムが強くなる。

モバイル機器の展開

前提条件モデルを軽量フォーマット（ONNXなど）にエクスポートし、モバイルに統合する必要がある。
リグ::
1. ローカルでモデルを変換する（具体的なスクリプトはプロジェクトのドキュメントに追加する。 export.py):
```
python export.py --model lite_avatar_model.pth --output lite_avatar.onnx
```
2. そうしれいかん .onnx ファイルはモバイルにデプロイされ、NCNNなどのONNX対応フレームワークを使って実行される。
結局携帯電話でのリアルタイムアニメーションを低消費電力で実現。

ほら

パフォーマンス最適化もしラグがある場合は、設定ファイルやコマンドラインパラメータを変更することで、フレームレートを下げることができます（例：30fpsから15fpsへ）。
テスト中にコンポーネントを調整するエラーが表示された場合は、依存関係のバージョンが一致しているかどうかを確認するか、GitHubのIssuesページでコミュニティのヘルプを確認してください。
スケーラビリティ新しい機能（例えば絵文字コントロール）を追加したい場合は、プロジェクトをフォークしてコードを修正することができます。HumanAIGCチームは貢献者によるPull Requestの提出を歓迎します。

以上の手順で、LiteAvatarを簡単にインストールして使用し、音声駆動アバターアニメーション生成プロセスを体験することができます。このツールは、開発テストと実際のアプリケーションの両方に、効率的で便利なソリューションを提供します。