AIパーソナル・ラーニング
と実践的なガイダンス

フィッシュ・エージェント:エンド・ツー・エンドのAIボイス・クローン・アシスタント、リアルタイム音声対話アシスタント、フィッシュ・スピーチ・スピンオフ・プロジェクト

はじめに

フィッシュ・スピーチ派生プロジェクト フィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された画期的なエンド・ツー・エンドのAI音声クローニング・システムです。完全なエンド・ツー・エンドの音声クローニング処理システムとして、その最大の特徴は、革新的なセマンティック・タグレス・アーキテクチャ設計を採用していることで、Whisperのような従来のセマンティック・エンコーダ/デコーダに依存する必要がなく、音声から音声への直接変換が可能です。超低遅延(最短150ミリ秒)により、システムは周囲の音声情報を正確に取り込み、生成することができ、ほぼリアルタイムの音声クローニング効果を実現します。Fish Agentは、事前にトレーニングされたモデルのダウンロードを開放し、ローカル展開のトレーニングとクラウドサービスの呼び出しをサポートすることで、開発者とユーザーに柔軟な利用プランを提供します。フィッシュ・エージェントは、統合された音声認識と音声合成機能、そして正確なトーン・コントロール・システムにより、自然でスムーズな音声インタラクション体験を実現します。

エンド・ツー・エンド・アーキテクチャー、ゼロサンプルのサウンドクローニング、30億パラメータのコンパクトモデル、多言語対応、高速レスポンス。トレーニングデータには70万時間の多言語音声が含まれます。Qwen-2.5-3B-Instructをベースに事前学習を継続。フィッシュエージェント・バージョン3Bと名付けられたこのモデルは、ASRとTTSコンポーネントを自動的に統合し、外部モデルの必要性を排除し、従来の3段階(ASR + LLM + TTS)処理とは一線を画す真のエンドツーエンド処理を可能にします。

フィッシュ・エージェント:リアルタイム音声対話アシスタント、エンド・ツー・エンドAIボイス・クローン・アシスタントを体験(英語)-1

経験:https://huggingface.co/spaces/fishaudio/fish-agent

 

機能一覧

  • 超低遅延ボイスクローニング:応答時間150ms、リアルタイム音声変換に対応
  • セマンティックフリー・タギング・アーキテクチャ:革新的なエンド・ツー・エンドの音声処理ソリューション
  • プレシジョン・トーン・コントロール:リファレンス・オーディオによる正確なトーン調整
  • アンビエントオーディオ処理:環境音情報を忠実に再現
  • オープンな事前学習済みモデル:地域ごとの展開とトレーニングをサポート
  • クラウドサービスAPI:便利なクラウドインターフェースコールを提供
  • パーソナライズドトレーニング:カスタマイズされたサウンドモデルトレーニングをサポート

 

ヘルプの使用

1.システム要件

  • Python 3.8以上
  • NVIDIA GPU(推奨)
  • 8GB以上のシステムメモリ
  • CUDAサポート(推奨)

2.インストール手順

  1. 環境準備
# 仮想環境の作成
python -m venv fish-agent-env
ソース fish-agent-env/bin/activate # Linux/Mac
# または
fish-agent-env Scripts\activate # Windows
  1. フィッシュエージェントのインストール
# 直接インストール
pip install fish-agent
# またはソースから
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .

3.ご利用の流れ

3.1 オンライン・サービスの利用

SmartBodyのデモをオンラインでお試しいただけます。ドキュメンテーションに従って、英語のライブチャット、英語と中国語のローカルチャットをお試しください。


このデモは初期のアルファテスト版であり、推論速度の最適化が必要であり、修正すべきバグがたくさんあります。バグを見つけたり、修正したい場合は、質問やプルリクエストを受け付けています。

https://fish.audio/zh-CN/demo/live/

 

3.2 現地展開

  1. サービス・アクティベーション
from fish_agent import VoiceAgent
# 魚エージェントを初期化する
エージェント = VoiceAgent()
# ローカルサービスを開始します
agent.start_server(port=7860)
  1. スピーチのクローニング例
# リファレンス・オーディオを読み込む
reference_audio = "パス/to/reference.wav"
agent.load_reference(reference_audio)
クローン音声を生成する
text = "これはテスト音声です"
output_path = "output.wav"
agent.generate_speech(text, output_path)
  1. リアルタイム変換設定
# リアルタイム音声変換の開始
エージェント.start_realtime_conversion(
input_device=0, #入力デバイスID
output_device=1, # 出力デバイスID
reference_audio="path/to/reference.wav"
)

4.高度な機能設定

4.1 音色のパラメーター調整

  • トーン・コントロールのパラメーター:
    • ピッチ:-12~12
    • 話すスピード:0.5~2.0
    • 感情強度:0~1.0

4.2 バッチ処理

# テキスト一括処理
texts = ["text1", "text2", "text3"] とする。
agent.batch_process(texts, output_dir="outputs/")

4.3 APIコール

# APIコール例
インポートリクエスト
url = "https://speech.fish.audio/api/v1/generate"
ペイロード = {
"text": "変換するテキスト", "reference_audio": "base64エンコードされた音声ファイル
"reference_audio": "base64 エンコードされたオーディオファイル"
}
response = requests.post(url, json=payload)

5.使用上の注意

  • リファレンス・オーディオの音質は、クローン作成結果に大きな影響を与えるため、バックグラウンド・ノイズのないクリアな録音を使用することをお勧めします。
  • 1つの文章は200ワード以内にまとめることを推奨する。
  • リアルタイム変換には、より良い結果を得るために良いマイクが必要です。
  • 商業利用には特定の認可が必要
  • 最適なパフォーマンスを得るためには、定期的にモデルをアップデートすることをお勧めします。

6.一般的な問題の解決

  1. 音声出力の問題
    • オーディオ出力デバイス設定の確認
    • システムボリュームの構成を確認する
    • オーディオ・フォーマットのサポートを確認する
  2. パフォーマンス最適化
    • GPUが正しく有効になっていることを確認する
    • バッチパラメータの調整
    • 定期的なキャッシュクリーニング
  3. インストール関連
    • Pythonのバージョン互換性の確認
    • CUDA環境設定の確認
    • conda環境を考える
  4. APIの使用
    • ネットワーク接続状況の確認
    • APIパーミッション設定の確認
    • サーバーの応答を確認する
無断転載を禁じます:チーフAIシェアリングサークル " フィッシュ・エージェント:エンド・ツー・エンドのAIボイス・クローン・アシスタント、リアルタイム音声対話アシスタント、フィッシュ・スピーチ・スピンオフ・プロジェクト

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語