はじめに
Linly-Talkerは、大規模言語モデル(LLM)と視覚モデルを組み合わせた革新的なデジタル人間対話システムであり、人間とコンピュータの対話に新しいアプローチを生み出します。このシステムには、Whisper、Linly、Microsoft Speech Services、LLMといった複数の技術が統合されています。 サドトーカー Linly-Talkerは、ユーザが対話のために画像をアップロードすることをサポートし、多ラウンド対話システムを通じて対話性とリアリズムを向上させます。このプロジェクトはKedreamixによって開発され、GitHubでオープンソース化されている。
機能一覧
- マルチラウンド・ダイアログ・システムインタラクティブ性とリアリズムを向上させるために、コンテクストセンシティブなマルチラウンドダイアログをサポートします。
- 画像アップロード・ダイアログユーザーは画像をアップロードし、デジタルピープルと対話することができます。
- 音声合成と認識Microsoft TTSおよびFunASRと統合し、複数の音声タイプと高速音声認識を提供します。
- ビデオ字幕生成視覚効果を高めるビデオ字幕生成に対応。
- ボイスクローニングGPT-SoVITSモデルでは、1分間の音声データでクローン音声を作成できます。
- パーソナル・キャラクター・ジェネレーション複数のモデルとオプションで、パーソナライズされた役割生成をサポートします。
- リアルタイム対話基本的なリアルタイム対話機能のためのMuseTalkとの統合。
ヘルプの使用
設置プロセス
- クローンプロジェクトターミナルで以下のコマンドを実行し、プロジェクトをクローンする:
git clone https://github.com/Kedreamix/Linly-Talker.git
- 依存関係のインストールプロジェクト・ディレクトリに移動し、必要な依存関係をインストールする:
cd Linly-Talker
pip install -r requirements_app.txt
pip install -r requirements_webui.txt
- 設定環境適切なシステム運用のために、必要に応じて環境変数や証明書を設定する。
使用ガイドライン
- WebUIの起動以下のコマンドを実行してWebUIを起動します:
python webui.py
ブラウザを開いてアクセスする http://localhost:7860
Linly-Talkerのウェブインタフェースにアクセスしたい場合は、以下のリンクをクリックしてください。
- 対話用画像のアップロード::
- WebUIインターフェイスで、"Upload Image "ボタンをクリックし、アップロードする画像ファイルを選択します。
- 画像がアップロードされると、システムは自動的に対話コンテンツを生成し、ユーザーはデジタル・パーソンと対話することができる。
- 音声合成と認識::
- ダイアログボックスにテキストを入力し、音声タイプを選択し、"Generate Voice "ボタンをクリックすると、システムが音声を合成して再生します。
- また、マイクを通して音声を入力すると、システムが自動的に認識し、テキストを生成する。
- ビデオ字幕生成::
- ビデオファイルをアップロードすると、システムが自動的に字幕を生成してビデオに埋め込み、ユーザーは字幕付きのビデオファイルをダウンロードできる。
- ボイスクローニング::
- ターゲット人物の音声サンプルをアップロードすると、システムは音声クローニングのためのGPT-SoVITSモデルを使用して、ターゲット人物に似た音声を生成します。
- パーソナル・キャラクター・ジェネレーション::
- WebUI インターフェースで「パーソナライズされたペルソナ生成」オプションを選択し、ペルソナ情報を入力すると、パーソナライズされたペルソナが生成されます。
- リアルタイム対話::
- MuseTalkモジュールを選択することで、システムはリアルタイム対話機能をオンにし、ユーザーはデジタル・パーソンとリアルタイムで対話することができる。