はじめに
SpeechGPT 2.0-previewは、OpenMOSSによって導入された初の擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。SpeechGPT2.0-previewは、数百万時間の音声データに基づいた初の擬人化リアルタイムインタラクションシステムで、擬人化された音声表現と100msの低遅延応答を備え、自然でスムーズなリアルタイム中断をサポートします。さまざまなキャラクターの口調や感情状態をシミュレートできるだけでなく、詩の朗読、ストーリーテリング、方言の話し方など、多彩なボイスタレントも備えています。さらに、SpeechGPT 2.0-previewは、ツール呼び出し、ネットワーク検索、プラグイン知識ベースもサポートし、豊かな音声表現とテキスト機能を提供します。
機能一覧
- 擬人化された口語表現
- 数百ミリ秒の低遅延レスポンス
- マルチモーション、マルチスタイル、マルチトーン・コントロール
- ロールプレイング能力
- 詩の朗読、ストーリーテリング、異言などの声楽の才能
- ツールコール、ネットワーク検索、プラグイン・ナレッジベースのサポート
- 効率的な音声データクローリングシステム
- 汎用的で効率的な音声データクリーニングパイプライン
- フルスペクトル多階調音声データ注釈システム
- 超低ビットレート・ストリーミング音声コーデックの意味論的・音響学的共同モデリング
ヘルプの使用
設置プロセス
- クローン倉庫
git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
- モデルの重みをダウンロードする(git-lfsがインストールされている必要があります):
git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git クローン https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
- 環境を整える:
pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --ビルド分離なし
- ウェブデモを立ち上げる:
python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/
機能 操作の流れ
- 擬人化された口語表現SpeechGPT 2.0-previewは、人間の口語表現をシミュレートし、自然でスムーズな対話体験を提供します。
- 低遅延レスポンスシステムはユーザーの入力に100ミリ秒レベルで反応し、リアルタイムのインタラクションを可能にする。
- マルチモーション、マルチスタイル、マルチトーン・コントロールユーザは、コマンドによってシステムの感情、スタイル、音色をコントロールし、さまざまな対話シナリオに適応させることができます。
- ロールプレイングこのシステムは、さまざまなキャラクターの声のトーンや感情状態をシミュレートすることができ、幅広い応用シーンに適しています。
- 音韻の才能SpeechGPT 2.0-previewは、詩の朗読、ストーリーテリング、方言表現など、さまざまな声の才能で対話を豊かにします。
- ツールコールとネットワーク検索このシステムは、外部ツールの呼び出しやネットワーク検索の実行をサポートし、対話と情報へのアクセスの機能を拡張します。
- プラグイン知識ベース外部のナレッジベースにアクセスすることで、より詳細で専門的な回答を提供することができます。
使用例
- 感情コントロールユーザは "ハッピートーンでジョークを言う "というコマンドを入力することができ、システムはハッピートーンでジョークを言う。
- ロールプレイング二次関数を説明する先生の口調をシミュレートする」というコマンドを入力すると、システムが先生の口調で説明します。
- 音韻の才能方言で物語を語る "というコマンドを入力すると、指定した方言で物語を語ってくれる。
上記の手順と例を通して、ユーザーはSpeechGPT 2.0-previewの強力な機能と多様なアプリケーションシナリオを十分に体験することができます。