AIパーソナル・ラーニング
と実践的なガイダンス

フィッシュ・スピーチ:少ないサンプル数で中国語と英語の音声を高速かつ高精度にクローニング

はじめに

フィッシュ・スピーチはフィッシュ・オーディオによって開発されたオープンソースの音声合成ツールです。このツールは、VQ-GAN、Llama、VITSなどの最先端のAI技術に基づいており、テキストをリアルな音声に変換することができます。フィッシュ・スピーチは、多言語をサポートするだけでなく、吹き替え、音声アシスタント、アクセシブル・リーディングなど、さまざまなアプリケーション・シナリオに対応する高効率な音声合成ソリューションを提供します。

 


フィッシュ・スピーチ:少ないサンプル数で音声のクローニングと合成を行う効率的なツール-1

https://fish.audio/zh-CN/ でのオンライン体験

 

フィッシュ・スピーチ:少ないサンプル数で音声のクローニングと合成を行う効率的なツール-1

推奨30秒オーディオ

 

 

機能一覧

  • 多言語サポート多言語の音声合成に対応。
  • 効率的な合成VQ-GAN、Llama、VITSなどの技術に基づく効率的な音声合成。
  • オープンソースプロジェクトコードはオープンソースで、ユーザーは自由にダウンロードして使うことができる。
  • オンラインデモオンラインデモ機能を提供し、ユーザーは直接音声合成の効果を体験することができます。
  • モデルダウンロードHugging Faceプラットフォームからの事前学習済みモデルのダウンロードをサポート。

 

 

ヘルプの使用

設置プロセス

システム要件

  • GPUメモリー4GB(推論用)、8GB(微調整用)
  • システムLinux、Windows

Windowsの構成

プロ・ユーザー
  • コードベースの実行には、WSL2またはDockerの使用を検討してください。
ノンプロフェッショナルユーザー
  1. プロジェクトのzipを解凍する.
  2. 打込む install_env.bat インストール環境.
    • ミラーダウンロードを使用するかどうかは、install_env.bat の USE_MIRROR エントリを編集することで決定できます。
      • USE_MIRROR=false トーチ環境の最新安定版をダウンロードするには、本家サイトをご利用ください。
      • USE_MIRROR=true ミラーサイトを使って最新のトーチ環境をダウンロードしてください(デフォルト)。
    • コンパイル可能な環境のダウンロードを有効にするかどうかは、install_env.batのINSTALL_TYPEエントリーを編集することで決定できる。
      • INSTALL_TYPE=プレビュー コンパイル環境の開発版をダウンロードする。
      • INSTALL_TYPE=stable コンパイル環境なしの安定版をダウンロードする。
  3. ステップ2の場合 INSTALL_TYPE=previewコンパイル済みモデル環境がない場合は、このステップを実行します(省略可能、このステップでコンパイル済みモデル環境が有効になります)。
    • LLVMコンパイラーをダウンロードする:
    • LLVM-17.0.6-win64.exeをダウンロードした後、ダブルクリックしてインストールし、適切なインストール場所を選択し、環境変数を追加するためにカレント・ユーザーにパスを追加にチェックを入れる。
  4. Microsoft Visual C++ 再頒布可能パッケージのダウンロードとインストール.dllが失われる可能性のある問題を解決する。
  5. Visual Studio Community EditionをダウンロードしてインストールするMSVC++コンパイル・ツールにLLVMヘッダー・ファイルの依存関係を解決させる。
    • Visual Studio ダウンロード
    • Visual Studio Installerをインストールした後、Visual Studio Community 2022をダウンロードしてください。
    • Modify ボタンをクリックし、Desktop Development using C++ 項目を見つけ、Download にチェックを入れます。
  6. ダウンロードとインストール CUDAツールキット12.
  7. ダブルクリック スタートバット Training Reasoning WebUIの管理インターフェイスを開きます。.必要であれば、以下に示すようにAPI_FLAGSを変更する。
    • Reasoning WebUI インターフェースを起動しますか?プロジェクトのルート・ディレクトリにあるAPI_FLAGS.txtを編集し、最初の3行を以下のフォーマットに変更してください:
      --infer
      # --api
      # --listen ...
      
    • APIサーバーを起動しますか?プロジェクトのルート・ディレクトリにあるAPI_FLAGS.txtを編集し、最初の3行を以下のフォーマットに変更してください:
      # --infer
      --api
      --listen ...
      
  8. ダブルクリック ラン_cmd.bat このプロジェクトのconda/pythonコマンドライン環境に入る。.

Linuxの設定

  1. python 3.10の仮想環境の作成virtualenvを使うこともできる:
    conda create -n fish-speech python=3.10
    conda fish-speechをアクティブにする
    
  2. pytorchのインストール::
    pip3 install torch torchvision torchaudio
    
  3. フィッシュ・スピーチをインストールする::
    pip3 install -e .[安定版]
    
  4. (Ubuntu / Debian ユーザ) sox をインストールする。::
    apt install libsox-dev
    

Dockerの設定

  1. NVIDIA Container Toolkitのインストール::
    • Ubuntuユーザーへ:
      curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-。keyring.gpg
          && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
              sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
              スド ティー /etc/apt/sources.list.d/nvidia-container-toolkit.list
      sudo apt-get update
      sudo apt-get install -y nvidia-container-toolkit
      sudo systemctl restart docker
      
    • 他のLinuxディストリビューションをお使いの方は、NVIDIA Container Toolkit Install-guideをご参照ください。
  2. フィッシュ・スピーチ・イメージを引っ張り出して実行する::
    docker pull lengyue233/fish-speech
    docker run -it
        --name fish-speech
        --gpus all
        -p 7860:7860 \
        lengyue233/fish-speech ୧-͈ᴗ-͈)◞ʱʱ
        zsh
    
    • 別のポートを使用する必要がある場合は、以下のように変更してください。 -p パラメーター あなたのポート:7860.
  3. モデルの依存関係をダウンロード::
    • 必要なvqganとllamaモデルをhuggingfaceリポジトリからダウンロードする前に、dockerコンテナ内のターミナルにいることを確認してください:
      huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
      
    • 中国本土のユーザーは、ミラーサイトからダウンロードできる:
      HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
      
  4. 環境変数を設定するには、WebUIにアクセスします。::
    • ドッカー・コンテナ内のターミナルで、次のようにタイプする:
      輸出 gradio_server_name="0.0.0.0"
      
    • 次に、ドッカー・コンテナ内のターミナルで、次のようにタイプする:
      python tools/webui.py
      
    • WSLまたはMacOSの場合は http://localhost:7860 WebUI インターフェースが開きます。
    • サーバーに配置する場合は ローカルホスト はサーバーIPです。

 

フィッシュオーディオ・ワンクリックインストーラー

チーフAIシェアリングサークルこのコンテンツは作者によって非表示にされています。コンテンツを表示するには認証コードを入力してください。
キャプチャ
このサイトWeChat公開番号に注意してください、返信"CAPTCHA、チャレンジ・レスポンス・テストの一種(コンピューティング)"、認証コードを取得します。WeChatで"チーフAIシェアリングサークル「またはルックスAI"またはWeChatは、QRコードの右側をスキャンすると、このサイトWeChatの公開番号に注意を払うことができます。

AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " フィッシュ・スピーチ:少ないサンプル数で中国語と英語の音声を高速かつ高精度にクローニング

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語