テキストに自らを語らせる：めまぐるしい数のTTSツールから最適なものを選ぶには？

今日は、ますます熱くなっている技術、テキスト読み上げ、別名TTS（Text-to-Speech）についてお話ししましょう。簡単に言うと、コンピュータにテキストを読み上げさせ、人間の音声のように読み上げることです。ここ数年で、短いビデオの吹き替え、オーディオブックの制作からインテリジェントなカスタマーサービス、バーチャルアシスタントまで、TTSの姿はいたるところに見られるようになった。また、無料、有料、オープンソース、クローズドソース、シンプルで使いやすいオンラインサービスもあれば、一定の技術的な敷居を必要とする開発ライブラリもあり、市場には無限のツールがある。これほど多くの選択肢を前にして、平均的なユーザーや開発者はどのように自分に合ったものを選べばいいのだろうか？

ご心配なく。今日は、市場で最も人気があり、代表的なTTSツールをいくつか紹介し、その能力と使用可能な場所について見ていきましょう。

使いやすい、すぐに使えるタイプ

コードを放り投げたくなく、ただスピーチを素早く生成したいユーザーには、多くのオンラインサービスやパッケージ化されたツールが好まれる。

TTSメーカーこれは無料の（市販の）オンラインツールです。50を超える膨大な数の言語に対応し、東北語や広東語などの方言まで含まれ、トーンも豊富に選べるのが利点です。短い動画やポッドキャストを制作するクリエイターや、多言語コンテンツを必要とするクリエイターにとっては、良い出発点となるだろう。ただし、その背景にある具体的な技術モデルは明示されておらず、よりプロフェッショナルなツールと比べると、自然でコントロールしやすいサウンドとは言えないかもしれない。
エッジ-TTSMicrosoftのEdgeブラウザに組み込まれているTTS機能をPythonライブラリにカプセル化した。良い点は、通話が簡単で無料であること、そして音声品質がかなり良いことだ。また、多くの言語とトーンに対応している（40以上の言語、300以上のトーン）。欠点は、マイクロソフトのインターフェースに依存していること、安定性と長期的な可用性が不安定であること、カスタマイズ機能が限られていることである。軽量なアプリケーションや、迅速に統合したい個人プロジェクトに向いている。

ビジネス界の巨人とプロ級のサービス

一流の音声品質、高度な安定性、豊富なカスタマイズ・オプションが必要な場合は、通常、商用サービスの方が良い選択肢となるが、もちろん、それは通常、有料であることを意味する。

Microsoft Azure TTSこれは業界で認知されたベンチマークのひとつです。ニューラルネットワーク技術に基づき、合成された音声はとても自然で滑らかで、ほとんど台無しにすることができます。SSML（Speech Synthesis Markup Language：音声合成マークアップ言語）により、豊富な感情コントロールオプションや、発音、発話速度、間などを微調整できる。140以上の言語と400以上のトーンに対応しているため、エンタープライズ・アプリケーション、高品質のオーディオブック、プロフェッショナルなバーチャル・アシスタントなどに最適です。もちろん、価格はエンタープライズクラスです。
シード-TTSこれはByteDance社が開発した技術で、現時点ではコアモデルを完全にはオープンソース化していないようだ。技術レポートを見る限り、音声コンテンツの編集や話すスピードの微調整ができるのが特徴で、オーディオブックのポストプロダクションや音声コンテンツの微調整が必要なシナリオに非常に適しているようだ。現在は主に中国語向けで、具体的な製品形態や公式フォローアップリリースへのアクセスは未定。
音声エンジン（OpenAIから？）しかし、OpenAIはこのシステムの名称を公式には発表していないようだ。 Voice Engine OpenAIの技術（GPTなど）をベースにしたサードパーティの実装が市場に出回っているかもしれないし、その内部研究プロジェクトを参照しているかもしれない。OpenAIの技術（例えばGPT）をベースにしたサードパーティの実装が市場に出回っているかもしれませんし、その内部研究プロジェクトを参照しているかもしれません。OpenAIは音声技術に強く、音声のクローンや生成機能で注目されていますが、まだ明確に「OpenAI」というサービスはありません。 Voice Engine 公開されている製品は、誰もが直接利用できるものであり、利用する際には情報源を選別する必要がある。

オープンソースコミュニティの力：自由とカスタマイズ

開発者や研究者にとって、オープンソースのTTSツールは自由度が高く、カスタマイズの余地がある。モデルの原理を掘り下げ、ニーズに応じて修正したり訓練したりすることができる。

パドルスピーチBaidu Flying Paddleのオープンソースプロジェクト。そのハイライトの一つは、ストリーミング合成のサポートであり、再生中に生成することができることを意味し、低遅延、リアルタイム音声放送、インテリジェントな顧客サービスなどのシーンへのリアルタイム応答のニーズに非常に適しています。これは FastSpeech2 歌で応える HiFiGAN などが主流だ。
コキーTTS最大の利点は、1100以上の言語をサポートする事前学習済みモデルの大規模なライブラリ（XTTSモデルに基づいている）で、多言語、特に低リソース言語を扱う必要があるアプリケーションにとって非常に価値があります。コミュニティは活発で、よく文書化されている。
吠えるによるスノーAI (音楽生成で知られる）が開発されましたが、さらに特別なのは、音声だけでなく、ミュージッククリップ、バックグラウンドノイズ、笑い声、叫び声などの非音声も生成し、多言語のミキシングをサポートしていることです。そのため、クリエイティブなオーディオプロジェクトやゲームのサウンドデザインなどに使用できるユニークな可能性を秘めています。ベースとなっているのは変圧器建築。
TensorFlowTTSその名の通り、TensorFlowベースのTTSツールセットです。以下のような様々な一般的なTTSモデルをサポートしています。 Tacotron 2そしてFastSpeech2 等と合わせて MelGAN ボコーダを使用します。これは、TensorFlowエコシステムに精通している開発者や、学術研究を行っている開発者にとって、モデルの実験やカスタム開発を容易にするための素晴らしいオプションです。
魚のスピーチ中国語、英語、日本語を一つの文の中で自然に切り替えるような、多言語混在文生成に特化したプロジェクトです。対応言語 VITS2そしてBert-VITS2 などの新しいモデル・アーキテクチャに対応しています。多言語ポッドキャスト、映画やテレビの吹き替えなどのシナリオ制作に魅力的。
ChatTTS対話シナリオに最適化されたオープンソースモデル。英語と中国語の両方のダイアログで優れた性能を発揮し、自然な感情の特徴（例えば、笑い、ためらい、トーンの間）を持つ音声を生成することで、合成されたダイアログをよりリアルでインタラクティブなものにします。40,000時間のデータで事前訓練されているという。

ボイス・クローン：独占的な声を持つ

ボイスクローン技術とは、誰かの声のサンプルを少量（場合によっては数秒から1分程度）使って、その人の声で話す音声を合成する技術です。この技術は興味深いものですが、倫理的なリスクがあり、使用する際には法律、規制、倫理に従うことが重要です。

GPT-SoVITSそれは次の組み合わせだ。 SoVITS (歌の合成や音声の変換によく使われるモデル）と GPT この技術のオープンソースプロジェクトである。1分間の音声で良好なクローン効果が得られると主張し、中国語の方言もある程度サポートしている。現在、コミュニティで非常にホットなボイスクローンソリューションの一つです。
オープンボイスによる MyShell.ai 声のクローンを作成するだけでなく、感情やアクセント、イントネーションの調整など、クローン音声を細かくコントロールできるオープンソース。そのため、CMの吹き替えや多言語バーチャルアシスタントなど、パーソナライズや表現力が求められるシーンで活躍する。
リアルタイム・ボイスクローニングこのプロジェクトは、技術者でなくても比較的簡単に音声クローニング実験を行うことができるグラフィカル・ユーザー・インターフェース(GUI)を提供します。これは SV2TTS 最新モデルほどうまくは動かないかもしれないが、使いやすさは勝っている。
F5-TTSこのプロジェクトでは、ゼロショット・ボイスクローニングのための拡散トランスフォーマー（DiT）技術を紹介します。これは比較的新しい研究の方向性である。
モッキングバードこのプロジェクトは、オープンソースの音声クローニング・プロジェクトとして以前から注目を集めていました。技術的には新しいプログラムに追い越されたかもしれませんが、音声クローニング技術の発展を理解する上では有益です。

その他のツール

また、それぞれ独自のツールも数多くある：

ボイスボックス主に日本人向けで、特に二次創作やアニメ調のトーンを得意としています。日本のVTuberやクリエイター界隈で人気が高い。
エモティボイスNetEaseYouDao オープンソースは、感情音声合成に焦点を当て、喜怒哀楽など様々な感情の音声を生成することができます。
メタボイス-1B1B（億）のパラメータを持つオープンソースのモデルは、通常、より高い表現力と高い音声品質を意味しますが、より多くの計算リソースも必要とします。
So-VITS-SVC主に歌声変換に使用され、他の人の声で歌を歌うことができる。 SoVITS テクノロジーの重要な一分野。

どのように選ぶか？

ここまで読んで、さらに混乱してしまったかもしれない。ご心配なく、ここに簡単なセレクションのアイデアがあります：

レギュラーユーザー、クイックボイス試してみてください。 TTS Maker または、何がベースになっているのかを調べる Edge-TTS オンラインツールの
アプリケーションに統合される開発者:
- 予算内で高品質と一貫性を実現する。 Microsoft Azure TTS.
- 中国の最適化と低遅延が必要。 PaddleSpeech.
- 最も幅広い言語サポートを必要とする。 Coqui TTS.
- サウンド＋サウンドスケープのアイデアで遊びたい。 Bark.
- 親しみ TensorFlow エコロジー。 TensorFlowTTS.
- 多言語ミキシングに対応する必要がある。 Fish Speech.
- 対話のシナリオに焦点を当てる。 ChatTTS.
声のクローンを作る:
- 結果を求め、地域は熱くなる GPT-SoVITS もしかしたら OpenVoice.
- GUIが必要。 Real-Time-Voice-Cloning.
- 最先端技術に焦点を当てる。 F5-TTS.
特定要件:
- 日本の副音声。 VoiceVox.
- 豊かな感情表現。 EmotiVoice.