MOSS-TTSD - 清華研究所のオープンソース二ヶ国語対話音声生成モデル
MOSS-TTSDとは
MOSS-TTSDは清華大学のSpeech and Language Labによって開発されたオープンソースの音声対話モデルです。MOSS-TTSDはテキスト対話スクリプトを自然で滑らかな表現力豊かな音声に変換することができ、英語と中国語のバイリンガル生成に対応しています。MOSS-TTSDは先進的な意味論的ニューラルネットワーク音声コーデックと大規模な事前学習済み言語モデルに基づいており、100万時間以上の一人用音声データと40万時間以上の会話音声データを学習用に組み合わせています。MOSS-TTSDはゼロサンプル音声クローニングをサポートしており、対話スクリプトに基づいて正確な対話者切り替え音声を生成し、追加サンプルなしで音色クローニングを実現します。MOSS-TTSDはAIポッドキャスト、映画やテレビの吹き替え、長時間のインタビュー、ニュースレポート、eコマースライブ放送などに適しています。

MOSS-TTSDの主な特長
- 自然でスムーズなダイアログ音声生成テキストの会話を自然で表情豊かな話し言葉に翻訳し、会話のリズムやイントネーションを正確にとらえる能力。
- ゼロサンプル・マルチスピーカー・トーン・クローニング音声サンプルを追加することなく、対話スクリプトに基づいて異なる対話者のトーンを生成し、スムーズな対話切り替えを実現します。
- バイリンガルサポート中国語と英語の両方で高品質の音声生成をサポートし、多言語シナリオのニーズに応えます。
- 長文スピーチ生成低ビットレート・コーデックにより、1パスで最大960秒の音声を生成できるため、スプライスされた音声の不自然なトランジションを避けることができる。
- オープンソースとビジネス・レディネスモデルの重み、推論コード、APIインターフェースは完全にオープンソースであり、自由な商用利用をサポートしているため、開発者や企業はアプリケーションを迅速に展開することができます。
MOSS-TTSD公式ウェブサイトアドレス
- プロジェクトのウェブサイト:: https://www.open-moss.com/en/moss-ttsd/
- Githubリポジトリ:: https://github.com/OpenMOSS/MOSS-TTSD
- HuggingFaceモデルライブラリ:: https://huggingface.co/fnlp/MOSS-TTSD-v0.5
- オンライン体験デモ:: https://huggingface.co/spaces/fnlp/MOSS-TTSD
MOSS-TTSDの使い方
- 環境準備::
- NVIDIAドライバのインストール最新バージョンのNVIDIAドライバとCUDAツールキットがインストールされていることを確認してください。
- Pythonのインストールと依存関係::
pip install torch torchvision torchaudio transformers soundfile
- モデルの入手ハギング・フェイスのモデルをダウンロード::
git clone https://huggingface.co/fnlp/MOSS-TTSD-v0.5
- モデルの読み込みとスピーチの生成
from transformers import AutoModelForTextToSpeech, AutoTokenizer
import soundfile as sf
# 加载模型和分词器
model_name = "fnlp/MOSS-TTSD-v0.5"
model = AutoModelForTextToSpeech.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 输入文本
text = "你好,这是一个测试对话。"
inputs = tokenizer(text, return_tensors="pt")
# 生成语音
audio = model.generate(**inputs)
# 保存语音文件
sf.write("output.wav", audio.numpy(), model.config.sampling_rate)
- 動作環境チェックGPUのサポートを確認する::
import torch
print(torch.cuda.is_available())
MOSS-TTSDの主な利点
- 自然で滑らかな音声生成台詞の韻やイントネーションを正確にとらえ、流れるような自然な表現に変換する能力。
- マルチトーカートーンクローニングゼロサンプルのトーンクローニングは、自然なダイアログ切り替えのために音声サンプルを追加することなく、異なる対話者のトーンを生成するためにサポートされています。
- バイリンガルサポート中国語と英語の高品質な音声生成をサポートし、多言語シナリオのニーズに応えます。
- 効率的なデータ処理と事前トレーニング生成された音声の高い品質と効率を保証する最適化されたトレーニングフレームワークに基づき、トレーニング用の大規模音声データと組み合わせる。
- オープンソースとビジネス・レディネスこのモデルは完全にオープンソースであり、自由な商業利用をサポートしているため、開発者による迅速な展開と応用が容易になっている。
- 幅広いアプリケーション・シナリオAIポッドキャスティング、映画やテレビの吹き替え、長時間のインタビュー、ニュース報道、eコマースのライブストリーミングに適しています。
- 技術革新革新的な音声離散化エンコーダXY-Tokenizerと低ビットレートコーデックにより、音声生成の性能と効率を向上。
MOSS-TTSDの対象者
- コンテンツクリエーターAIポッドキャスト、ビデオナレーション、ニュース番組などの制作に使用でき、自然でスムーズな会話音声を素早く生成します。
- 映画・テレビ制作チーム映画やテレビ作品の台詞の吹き替えを行い、制作効率を高めるために複数話者のトーンクローニングをサポートする。
- 報道関係者ニュースの魅力と読みやすさを高めるため、自然な会話音声のニュースキャストを作成。
- eコマース・プラクティショナーEコマース・ライブ放送では、デジタル・ヒューマン・ダイアローグ・バンドワゴンで視聴者を引き込み、双方向性を高めます。
- 技術開発者オープンソースモデルによる二次開発、各種音声アプリケーションへの統合、機能拡張。
© 著作権表示
この記事は著作権で保護されており、許可なく複製することは禁じられている。
関連記事
コメントはありません