はじめに
TANGOは、ビデオ内のジェスチャーと音声を正確に同期させるために設計された、オープンソースの共同話者ジェスチャービデオ生成ツールです。東京大学とサイバーエージェントAI研究所によって開発されたこのツールは、高度なAI技術を活用し、様々な環境において高品質なジェスチャー生成を可能にします。研究、学術、個人での使用に適したTANGOは、トレーニングコード、推論コード、および事前にトレーニングされたモデルと共に提供されます。
ボイス・リップ・シンク・ツールを使って、完全なデジタル・パーソン・プロジェクトに取り組みましょう:同期 そしてWav2Lip
機能一覧
- 高精度のジェスチャー同期:ビデオのジェスチャーと音声を正確に同期させます。
- 多言語サポート:CGIの顔や合成音など、さまざまな言語やサウンドに対応。
- オープンソースで無料:コードは完全に公開されており、ユーザーは自由に使用、変更することができる。
- インタラクティブ・デモ:ユーザーがビデオやオーディオファイルをアップロードして体験できるオンライン・デモを提供します。
- 事前学習モデル:様々な事前学習モデルを提供し、ユーザーが直接使用したり、二次学習することができます。
- 完全なトレーニングコード:ジェスチャー同期識別器とTANGOモデルのトレーニングコードを含む。
ヘルプの使用
設置プロセス
- クローン倉庫:
バッシュコピー
ギット clonehttps://github.com/CyberAgentAILab/TANGO
- 依存関係のインストール :
バッシュコピー
ピップインストール -r requirements.txt
- 事前学習済みモデルのダウンロード:事前学習済みモデルを指定されたディレクトリにダウンロードする。
顔検出/検出/sfd/s3fd.pth
. - 推論コードを実行する:
バッシュコピー
python inference.py --チェックポイント・パス <チェックポイント> --顔 <video.mp4 --オーディオ <アン-オーディオ-ソース>
使用プロセス
- ローカルサーバーへのアクセス:ブラウザで開く
http://localhost:3000
. - ビデオとオーディオのアップロード:入力ボックスに同期したいオーディオとビデオファイルをアップロードします。
- ジェスチャー同期を実行:「同期」ボタンをタップすると、システムは自動的にジェスチャー同期プロセスを実行します。
- 結果の表示とダウンロード : 同期が完了した後、結果をプレビューしたり、同期されたビデオファイルをダウンロードすることができます。
- インタラクティブデモの使用:デモページにビデオやオーディオファイルをアップロードして、ジェスチャー同期効果をリアルタイムで体験できます。
- プロジェクトの管理 : アップロードされたすべてのプロジェクトをマイプロジェクトページで閲覧・管理できます。
高度な機能
- インテリジェントなジェスチャー同期:AIが提供するインテリジェントなジェスチャー同期により、ビデオコンテンツのプレゼンテーションを改善します。
- 多言語サポート:プロジェクトのニーズに応じて、さまざまな言語と音声を選択できます。
- カスタム開発: TANGOはオープンソースなので、ユーザーはニーズに合わせて開発することができます。