はじめに
フィッシュ・スピーチ派生プロジェクト フィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された画期的なエンド・ツー・エンドのAI音声クローニング・システムです。完全なエンド・ツー・エンドの音声クローニング処理システムとして、その最大の特徴は、革新的なセマンティック・タグレス・アーキテクチャ設計を採用していることで、Whisperのような従来のセマンティック・エンコーダ/デコーダに依存する必要がなく、音声から音声への直接変換が可能です。超低遅延(最短150ミリ秒)により、システムは周囲の音声情報を正確に取り込み、生成することができ、ほぼリアルタイムの音声クローニング効果を実現します。Fish Agentは、事前にトレーニングされたモデルのダウンロードを開放し、ローカル展開のトレーニングとクラウドサービスの呼び出しをサポートすることで、開発者とユーザーに柔軟な利用プランを提供します。フィッシュ・エージェントは、統合された音声認識と音声合成機能、そして正確なトーン・コントロール・システムにより、自然でスムーズな音声インタラクション体験を実現します。
エンド・ツー・エンド・アーキテクチャー、ゼロサンプルのサウンドクローニング、30億パラメータのコンパクトモデル、多言語対応、高速レスポンス。トレーニングデータには70万時間の多言語音声が含まれます。Qwen-2.5-3B-Instructをベースに事前学習を継続。フィッシュエージェント・バージョン3Bと名付けられたこのモデルは、ASRとTTSコンポーネントを自動的に統合し、外部モデルの必要性を排除し、従来の3段階(ASR + LLM + TTS)処理とは一線を画す真のエンドツーエンド処理を可能にします。
機能一覧
- 超低遅延ボイスクローニング:応答時間150ms、リアルタイム音声変換に対応
- セマンティックフリー・タギング・アーキテクチャ:革新的なエンド・ツー・エンドの音声処理ソリューション
- プレシジョン・トーン・コントロール:リファレンス・オーディオによる正確なトーン調整
- アンビエントオーディオ処理:環境音情報を忠実に再現
- オープンな事前学習済みモデル:地域ごとの展開とトレーニングをサポート
- クラウドサービスAPI:便利なクラウドインターフェースコールを提供
- パーソナライズドトレーニング:カスタマイズされたサウンドモデルトレーニングをサポート
ヘルプの使用
1.システム要件
- Python 3.8以上
- NVIDIA GPU(推奨)
- 8GB以上のシステムメモリ
- CUDAサポート(推奨)
2.インストール手順
- 環境準備
# 仮想環境の作成
python -m venv fish-agent-env
ソース fish-agent-env/bin/activate # Linux/Mac
# または
fish-agent-env Scripts\activate # Windows
- フィッシュエージェントのインストール
# 直接インストール
pip install fish-agent
# またはソースから
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .
3.ご利用の流れ
3.1 オンライン・サービスの利用
SmartBodyのデモをオンラインでお試しいただけます。ドキュメンテーションに従って、英語のライブチャット、英語と中国語のローカルチャットをお試しください。
このデモは初期のアルファテスト版であり、推論速度の最適化が必要であり、修正すべきバグがたくさんあります。バグを見つけたり、修正したい場合は、質問やプルリクエストを受け付けています。
https://fish.audio/zh-CN/demo/live/
3.2 現地展開
- サービス・アクティベーション
from fish_agent import VoiceAgent
# 魚エージェントを初期化する
エージェント = VoiceAgent()
# ローカルサービスを開始します
agent.start_server(port=7860)
- スピーチのクローニング例
# リファレンス・オーディオを読み込む
reference_audio = "パス/to/reference.wav"
agent.load_reference(reference_audio)
クローン音声を生成する
text = "これはテスト音声です"
output_path = "output.wav"
agent.generate_speech(text, output_path)
- リアルタイム変換設定
# リアルタイム音声変換の開始
エージェント.start_realtime_conversion(
input_device=0, #入力デバイスID
output_device=1, # 出力デバイスID
reference_audio="path/to/reference.wav"
)
4.高度な機能設定
4.1 音色のパラメーター調整
- トーン・コントロールのパラメーター:
- ピッチ:-12~12
- 話すスピード:0.5~2.0
- 感情強度:0~1.0
4.2 バッチ処理
# テキスト一括処理
texts = ["text1", "text2", "text3"] とする。
agent.batch_process(texts, output_dir="outputs/")
4.3 APIコール
# APIコール例
インポートリクエスト
url = "https://speech.fish.audio/api/v1/generate"
ペイロード = {
"text": "変換するテキスト", "reference_audio": "base64エンコードされた音声ファイル
"reference_audio": "base64 エンコードされたオーディオファイル"
}
response = requests.post(url, json=payload)
5.使用上の注意
- リファレンス・オーディオの音質は、クローン作成結果に大きな影響を与えるため、バックグラウンド・ノイズのないクリアな録音を使用することをお勧めします。
- 1つの文章は200ワード以内にまとめることを推奨する。
- リアルタイム変換には、より良い結果を得るために良いマイクが必要です。
- 商業利用には特定の認可が必要
- 最適なパフォーマンスを得るためには、定期的にモデルをアップデートすることをお勧めします。
6.一般的な問題の解決
- 音声出力の問題
- オーディオ出力デバイス設定の確認
- システムボリュームの構成を確認する
- オーディオ・フォーマットのサポートを確認する
- パフォーマンス最適化
- GPUが正しく有効になっていることを確認する
- バッチパラメータの調整
- 定期的なキャッシュクリーニング
- インストール関連
- Pythonのバージョン互換性の確認
- CUDA環境設定の確認
- conda環境を考える
- APIの使用
- ネットワーク接続状況の確認
- APIパーミッション設定の確認
- サーバーの応答を確認する