AIパーソナル・ラーニング
と実践的なガイダンス

ココロWebGPU: ブラウザのオフライン操作のための音声合成サービス

はじめに

ココロ WebGPUは、WebMLコミュニティがHugging Faceプラットフォーム上で提供するKokoro音声合成(TTS)モデルのWebGPUバージョンです。WebGPUは、ブラウザ上で高性能な計算タスクを可能にする最新のグラフィックスおよび計算APIです。Kokoro WebGPUモデルは、オーディオブック、ポッドキャスト、教育ビデオなどのさまざまなアプリケーションシナリオ向けに、高速で信頼性の高い音声合成サービスをユーザーに提供するように設計されています。教育ビデオなど

Kokoroは、8,200万個のパラメータを持つオープンソースのTTSモデルである。kokoroはApache 2.0ライセンスの下でライセンスされており、生産現場でも個人プロジェクトでも、様々な環境で自由に導入することができます。

ココロWebGPU:ブラウザ上でネイティブに動作する音声合成サービス-1

 

機能一覧

  • 効率的な音声合成WebGPU技術による高性能な音声合成。
  • ブラウザは追加のソフトウェアをインストールする必要はありません。
  • 多言語サポート多言語の音声合成に対応。
  • リアルタイム応答リアルタイム・アプリケーションに高速レスポンスを提供します。
  • オープンソースコミュニティのサポートWebML Communityのサポートにより、ユーザーはコミュニティでの議論や開発に参加することができます。

 

ヘルプの使用

ブラウザで実行するサンプルコード

Kokoroをブラウザで使うには、まず ココロ-js 図書館

npm kokoro-jsをインストールする

音声は以下のコードで生成できる:

import { KokoroTTS } from "kokoroo-js".
const model_id = "onnx-community/Kokoroo-82M-v1.0-ONNX"; const tts = await KokoroTTS.from_pretrained(model_id, { dtype: "q8", // オプション値: "fp32", "fp16", "q8", "q4", "q4f16" device: "wasm", // オプション値: "wasm"、"webgpu"(ウェブ)または "cpu"(ノード)。webgpu "を使用する場合は、dtype="fp32 "を推奨する。 }); const text = "人生はチョコレートの箱のようなもの、何が出てくるかわからない。"; const audio = await tts.generate(text, {). // `tts.list_voices()` を使って、利用可能な全ての音声をリストアップする。 声: "af_heart", { }); audio.save("audio.wav"); }.

上記のコードはブラウザ環境で実行され、効率的な音声合成のためにWebGPU技術を利用している。

パイソンコード

Python環境では こころ 音声合成用ライブラリ。

# kokoroとsoundfileのインストール
pip install kokoro>=0.7.11 soundfile
# 英語のOODフォールバックと英語以外の言語用にespeak-ngをインストールする。
!apt-get -qq -y install espeak-ng > /dev/null 2>&1

from kokoro import KPipeline
from IPython.display import display, Audio
sf としてサウンドファイルをインポートする

# パイプラインを初期化
pipeline = KPipeline(lang_code='a') # 'a'はアメリカ英語です。

text = ''
空は信号のないチャンネルに合わせたテレビの色だった。
「チャットの入り口に押し寄せた人混みをかき分けながら、キースは誰かが言うのを聞いた。僕の身体は大量の薬物欠乏症になったみたいなんだ」。
チャツボはプロの外国人駐在員のためのバーで、一週間中飲んでも片言の日本語は聞こえなかった。
'''

# 音声を生成して保存する
ジェネレーター = パイプライン(
    text, voice='af_heart', # 音声を変更する。
    speed=1, split_pattern=r'\n+'.
)
for i, (gs, ps, audio) in enumerate(generator):
    print(i) # インデックス
    print(gs) # 文字
    print(ps) # 音素
    display(Audio(data=audio, rate=24000, autoplay=i==0))
    sf.write(f'{i}.wav', audio, 24000) #各音声ファイルを保存する

上記のコードは、Python環境で こころ このライブラリはテキストから音声への変換を可能にする。

ブラウザで直接体験

ココロTTSは、インストールすることなく、ブラウザ上で直接体験することができます。下記のリンクからどうぞ:

https://huggingface.co/spaces/webml-community/kokoro-webgpu

このアプリケーションは約300メガバイト以上あり、体験する前に完全に読み込む必要があることにご注意ください。しかし、完全にブラウザ上で動作する効率的なTTSモデルとして、待つ価値はあります。

主な機能

音声合成

  1. 入力テキスト入力ボックスに音声変換したいテキストを入力します。
  2. 言語選択英語、フランス語、日本語など、変換する言語を選択します。
  3. 運用モデル実行ボタンをクリックすると、音声合成が実行されます。
  4. 結果を見るスピーチ結果はページに表示され、ユーザーは生成されたスピーチファイルを再生したりダウンロードしたりすることができます。

注目の機能

  • オンライン変換ココロWebGPUは、WebGPU技術を活用し、高速応答が要求されるアプリケーションのリアルタイム音声合成を可能にします。
  • 多言語サポート多言語のテキスト音声変換をサポートし、ユーザーは必要に応じて異なる言語を選択することができます。
  • 地域支援WebML Communityを利用することで、ユーザーはコミュニティでのディスカッションに参加し、技術サポートやアップデートを受けることができます。
シーディーエヌ
無断転載を禁じます:チーフAIシェアリングサークル " ココロWebGPU: ブラウザのオフライン操作のための音声合成サービス

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語