AIパーソナル・ラーニング
と実践的なガイダンス
ビーンバッグ・マースコード

Zonos: 高品質音声合成と音声クローニングツール

はじめに

Zonosは、Zyphraによって開発されたオープンソースの音声合成および音声クローニングツールです。Zonos-v0.1バージョンは、高品質の音声出力を生成するために、高度なトランスフォーマーとブレンディングモデルを採用しています。このツールは、英語、日本語、中国語、フランス語、ドイツ語を含む多言語をサポートし、きめ細かな音質と感情制御を提供します。Zonosの音声クローニング機能は、わずか数秒の参照音声を提供するだけで、非常に自然な音声を生成します。ユーザーはGitHub経由でモデルの重みとサンプルコードを入手し、Huggingfaceで試すことができる。

Zonos: 高品質音声合成・音声クローニングツール-1


 

機能一覧

  • ゼロサンプルTTS音声クローニングテキストと10-30秒の音声サンプルを入力し、高品質な音声出力を生成します。
  • 音声プリフィックス入力テキストと音声の接頭辞を追加して、より豊かな話者マッチングを実現。
  • 多言語サポート英語、日本語、中国語、フランス語、ドイツ語に対応。
  • 音質と感情のコントロール話すスピード、ピッチの変化、音質、感情(喜び、恐れ、悲しみ、怒りなど)など、生成される音声のさまざまな側面をきめ細かくコントロールできます。
  • リアルタイム音声生成忠実度の高い音声のリアルタイム生成に対応。

 

ヘルプの使用

設置プロセス

  1. クローンプロジェクトターミナルで以下のコマンドを実行し、Zonosプロジェクトをクローンします: バッシュ
    git clone https://github.com/Zyphra/Zonos.git
    cdゾノス
  2. 依存関係のインストール必要なPythonの依存関係をインストールするには、以下のコマンドを使用します: バッシュ
    pip install -r requirements.txt
  3. モデルウェイトのダウンロードHuggingfaceから必要なモデルウェイトをダウンロードし、プロジェクトディレクトリに置く。

使用方法

  1. 積載モデルPython環境にZonosモデルをロードします:
    インポートトーチ
    インポート torchaudio
    from zonos.model import Zonos
    from zonos.conditioning import make_cond_dict
    model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")
    
  2. スピーチの生成音声出力を生成するために、テキストと話者のサンプルを提供します: パイソン
    wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
    speaker = model.make_speaker_embedding(wav, sampling_rate)
    cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us")
    conditioning = model.prepare_conditioning(cond_dict)
    codes = model.generate(コンディショニング)
    wavs = model.autoencoder.decode(codes).cpu()
    torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
  3. グラディオ・インターフェースの使用スピーチの生成には、Gradioインターフェイスをお勧めします: バッシュ
    uv run gradio_interface.py
    #または
    python gradio_interface.py
    これにより サンプル.wav ファイルをプロジェクトのルート・ディレクトリに保存する。

詳細な機能操作の流れ

  1. ゼロサンプルTTS音声クローニング::
    • 希望するテキストと話者の10~30秒のサンプルを入力すると、このモデルは高品質の音声出力を生成する。
  2. 音声プリフィックス入力::
    • テキストや音声の接頭辞を追加して、より豊かな話者マッチングを実現。たとえば、ウィスパーオーディオの接頭辞は、ウィスパー効果を生成するために使用できます。
  3. 多言語サポート::
    • 希望の言語(英語、日本語、中国語、フランス語、ドイツ語など)を選択すると、対応する言語の音声出力が生成されます。
  4. 音質と感情のコントロール::
    • このモデルの条件設定機能を使えば、話すスピード、ピッチの変化、音質、感情(喜び、恐れ、悲しみ、怒りなど)など、生成される音声のあらゆる側面をきめ細かくコントロールできます。
  5. リアルタイム音声生成::
    • Gradioインターフェースやその他のリアルタイム生成方法を使用して、忠実度の高い音声を素早く生成します。
シーディーエヌ
無断転載を禁じます:チーフAIシェアリングサークル " Zonos: 高品質音声合成と音声クローニングツール

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語