Kokoro WebGPU : un service de synthèse vocale pour les opérations hors ligne dans les navigateurs

Dernières ressources sur l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

24.4K 00

Introduction générale

Kokoro WebGPU est la version WebGPU du modèle de synthèse vocale Kokoro, fourni par la communauté WebML sur la plateforme Hugging Face. Le projet s'appuie sur la technologie WebGPU pour permettre aux utilisateurs d'exécuter des conversions texte-parole efficaces en mode natif dans leur navigateur.WebGPU est une API graphique et informatique moderne qui permet d'exécuter des tâches informatiques de haute performance dans le navigateur.Le modèle Kokoro WebGPU est conçu pour fournir aux utilisateurs des services de synthèse vocale rapides et fiables pour une variété de scénarios d'application, tels que les livres audio, les podcasts, les vidéos éducatives, etc. les podcasts, les vidéos éducatives, etc.

Kokoro est un modèle de synthèse vocale open source avec 82 millions de paramètres. Malgré son architecture légère, Kokoro est comparable, en termes de qualité de synthèse vocale, à des modèles plus importants, avec des avantages en termes de vitesse et de coût. Kokoro est sous licence Apache 2.0, ce qui lui permet d'être déployé librement dans une variété d'environnements, à la fois en production et dans le cadre de projets personnels.

Liste des fonctions

Une synthèse vocale efficaceLa technologie WebGPU permet de convertir le texte en parole de manière très performante.
Le navigateur fonctionneLe système de gestion de l'information : Aucun logiciel supplémentaire à installer, s'exécute directement dans votre navigateur.
Prise en charge multilingueLa conversion du texte à la parole est possible dans plusieurs langues.
réponse en temps réelLa technologie de l'information est un atout majeur pour la gestion de l'information : elle offre des temps de réponse rapides pour les applications en temps réel.
Soutien à la communauté Open SourceWebML : Soutenu par la communauté WebML, les utilisateurs peuvent participer aux discussions et au développement de la communauté.

Utiliser l'aide

Exemple de code à exécuter dans un navigateur

Pour utiliser Kokoro dans votre navigateur, vous devez d'abord installer l'application kokoro-js Bibliothèque.

npm install kokoro-js

La voix peut ensuite être générée à l'aide du code suivant :

import { KokoroTTS } from"kokoro-js";

const model_id = "onnx-community/Kokoro-82M-v1.0-ONNX";
const tts = await KokoroTTS.from_pretrained(model_id, {
dtype: "q8", // 可选值: "fp32", "fp16", "q8", "q4", "q4f16"
device: "wasm", // 可选值: "wasm", "webgpu" (web) 或 "cpu" (node)。如果使用 "webgpu"，建议使用 dtype="fp32"。
});

const text = "生活就像一盒巧克力，你永远不知道你会得到什么。";
const audio = await tts.generate(text, {
// 使用 `tts.list_voices()` 列出所有可用的声音
voice: "af_heart",
});
audio.save("audio.wav");

Le code ci-dessus fonctionne dans un environnement de navigateur et utilise la technologie WebGPU pour une synthèse vocale efficace.

Code Python

Dans un environnement Python, vous pouvez utiliser la fonction kokoro pour la synthèse vocale.

# 安装 kokoro 和 soundfile
!pip install kokoro>=0.7.11 soundfile
# 安装 espeak-ng，用于英语 OOD 回退和某些非英语语言
!apt-get -qq -y install espeak-ng > /dev/null 2>&1

from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf

# 初始化管道
pipeline = KPipeline(lang_code='a') # 'a' 表示美式英语

text = '''
天空的颜色像电视机调到没有信号的频道。
"这不像我在使用，"凯斯听到有人说，他挤过 Chat 门口的拥挤人群。"这就像我的身体产生了巨大的药物缺乏症。"
那是一个大都市的声音和笑话。Chatsubo 是一个为专业外籍人士开的酒吧；你可以在那喝上一周，却听不到两句日语。
'''

# 生成并保存音频
generator = pipeline(
    text, voice='af_heart', # 更改声音
    speed=1, split_pattern=r'\n+'
)
for i, (gs, ps, audio) in enumerate(generator):
    print(i)  # 索引
    print(gs) # 字符
    print(ps) # 音素
    display(Audio(data=audio, rate=24000, autoplay=i==0))
    sf.write(f'{i}.wav', audio, 24000) # 保存每个音频文件

Le code ci-dessus s'exécute dans un environnement Python, à l'aide de la commande kokoro La bibliothèque permet la conversion du texte en parole.

Découvrez-le directement dans votre navigateur

Vous pouvez utiliser Kokoro TTS directement dans votre navigateur sans aucune installation. Veuillez visiter le lien ci-dessous :

https://huggingface.co/spaces/webml-community/kokoro-webgpu

Veuillez noter que l'application pèse environ 300+ mégaoctets et qu'elle doit être entièrement chargée avant de pouvoir être utilisée. Toutefois, comme il s'agit d'un modèle TTS efficace qui fonctionne entièrement dans le navigateur, l'attente en vaut la peine.

Principales fonctions

synthèse vocale

texte d'entréeTexte : Entrez le texte à convertir en parole dans la boîte de saisie.
Sélectionner la langueSélectionnez la langue à convertir, par exemple anglais, français, japonais, etc.
modèle opérationnelCliquez sur le bouton Exécuter et le modèle effectuera la conversion texte-parole.
Voir les résultatsLe résultat de l'enregistrement s'affiche sur la page et l'utilisateur peut écouter et télécharger le fichier vocal généré.

Fonctions vedettes

conversion en ligneKokoro WebGPU : Kokoro WebGPU utilise la technologie WebGPU pour permettre la conversion texte-parole en temps réel pour les scénarios d'application qui nécessitent des temps de réponse rapides.
Prise en charge multilingueLa conversion du texte en parole est possible dans plusieurs langues, les utilisateurs peuvent choisir différentes langues en fonction de leurs besoins.
Soutien communautaireWebML Community : Grâce à WebML Community, les utilisateurs peuvent participer aux discussions de la communauté et bénéficier d'une assistance technique et de mises à jour.