はじめに
ココロ WebGPUは、WebMLコミュニティがHugging Faceプラットフォーム上で提供するKokoro音声合成(TTS)モデルのWebGPUバージョンです。WebGPUは、ブラウザ上で高性能な計算タスクを可能にする最新のグラフィックスおよび計算APIです。Kokoro WebGPUモデルは、オーディオブック、ポッドキャスト、教育ビデオなどのさまざまなアプリケーションシナリオ向けに、高速で信頼性の高い音声合成サービスをユーザーに提供するように設計されています。教育ビデオなど
Kokoroは、8,200万個のパラメータを持つオープンソースのTTSモデルである。kokoroはApache 2.0ライセンスの下でライセンスされており、生産現場でも個人プロジェクトでも、様々な環境で自由に導入することができます。
機能一覧
- 効率的な音声合成WebGPU技術による高性能な音声合成。
- ブラウザは追加のソフトウェアをインストールする必要はありません。
- 多言語サポート多言語の音声合成に対応。
- リアルタイム応答リアルタイム・アプリケーションに高速レスポンスを提供します。
- オープンソースコミュニティのサポートWebML Communityのサポートにより、ユーザーはコミュニティでの議論や開発に参加することができます。
ヘルプの使用
ブラウザで実行するサンプルコード
Kokoroをブラウザで使うには、まず ココロ-js
図書館
npm kokoro-jsをインストールする
音声は以下のコードで生成できる:
import { KokoroTTS } from "kokoroo-js".
const model_id = "onnx-community/Kokoroo-82M-v1.0-ONNX";
const tts = await KokoroTTS.from_pretrained(model_id, {
dtype: "q8", // オプション値: "fp32", "fp16", "q8", "q4", "q4f16"
device: "wasm", // オプション値: "wasm"、"webgpu"(ウェブ)または "cpu"(ノード)。webgpu "を使用する場合は、dtype="fp32 "を推奨する。
});
const text = "人生はチョコレートの箱のようなもの、何が出てくるかわからない。";
const audio = await tts.generate(text, {).
// `tts.list_voices()` を使って、利用可能な全ての音声をリストアップする。
声: "af_heart", {
});
audio.save("audio.wav"); }.
上記のコードはブラウザ環境で実行され、効率的な音声合成のためにWebGPU技術を利用している。
パイソンコード
Python環境では こころ
音声合成用ライブラリ。
# kokoroとsoundfileのインストール
pip install kokoro>=0.7.11 soundfile
# 英語のOODフォールバックと英語以外の言語用にespeak-ngをインストールする。
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
sf としてサウンドファイルをインポートする
# パイプラインを初期化
pipeline = KPipeline(lang_code='a') # 'a'はアメリカ英語です。
text = ''
空は信号のないチャンネルに合わせたテレビの色だった。
「チャットの入り口に押し寄せた人混みをかき分けながら、キースは誰かが言うのを聞いた。僕の身体は大量の薬物欠乏症になったみたいなんだ」。
チャツボはプロの外国人駐在員のためのバーで、一週間中飲んでも片言の日本語は聞こえなかった。
'''
# 音声を生成して保存する
ジェネレーター = パイプライン(
text, voice='af_heart', # 音声を変更する。
speed=1, split_pattern=r'\n+'.
)
for i, (gs, ps, audio) in enumerate(generator):
print(i) # インデックス
print(gs) # 文字
print(ps) # 音素
display(Audio(data=audio, rate=24000, autoplay=i==0))
sf.write(f'{i}.wav', audio, 24000) #各音声ファイルを保存する
上記のコードは、Python環境で こころ
このライブラリはテキストから音声への変換を可能にする。
ブラウザで直接体験
ココロTTSは、インストールすることなく、ブラウザ上で直接体験することができます。下記のリンクからどうぞ:
https://huggingface.co/spaces/webml-community/kokoro-webgpu
このアプリケーションは約300メガバイト以上あり、体験する前に完全に読み込む必要があることにご注意ください。しかし、完全にブラウザ上で動作する効率的なTTSモデルとして、待つ価値はあります。
主な機能
音声合成
- 入力テキスト入力ボックスに音声変換したいテキストを入力します。
- 言語選択英語、フランス語、日本語など、変換する言語を選択します。
- 運用モデル実行ボタンをクリックすると、音声合成が実行されます。
- 結果を見るスピーチ結果はページに表示され、ユーザーは生成されたスピーチファイルを再生したりダウンロードしたりすることができます。
注目の機能
- オンライン変換ココロWebGPUは、WebGPU技術を活用し、高速応答が要求されるアプリケーションのリアルタイム音声合成を可能にします。
- 多言語サポート多言語のテキスト音声変換をサポートし、ユーザーは必要に応じて異なる言語を選択することができます。
- 地域支援WebML Communityを利用することで、ユーザーはコミュニティでのディスカッションに参加し、技術サポートやアップデートを受けることができます。