MOSS-TTSD - Modèle de génération de la parole pour le dialogue bilingue du laboratoire de Tsinghua (Open Source)

Dernières ressources sur l'IAMise à jour il y a 2 mois Cercle de partage de l'IA

19.4K 00

Qu'est-ce que MOSS-TTSD ?

MOSS-TTSD est un modèle de dialogue parlé open source développé par le Speech and Language Lab de l'université de Tsinghua. MOSS-TTSD peut transformer des scripts de dialogue textuels en paroles naturelles, fluides et expressives, et prend en charge la génération bilingue en anglais et en chinois. Le modèle est basé sur un codec audio avancé à réseau neuronal sémantique et phonétique et sur un modèle de langage pré-entraîné à grande échelle, combiné à plus d'un million d'heures de données vocales d'une seule personne et à 400 000 heures de données vocales conversationnelles pour l'entraînement.MOSS-TTSD prend en charge le clonage de la parole sans échantillon, ce qui génère des voix de changement d'interlocuteur précises basées sur les scripts de dialogue, et réalise le clonage du timbre sans échantillons supplémentaires.MOSS-TTSD est adapté aux podcasts d'IA et peut être utilisé dans une grande variété d'applications. MOSS-TTSD convient aux podcasts IA, au doublage de films et de programmes télévisés, aux interviews de longue durée, aux reportages et aux émissions en direct sur le commerce électronique, etc.

Principales caractéristiques de MOSS-TTSD

Génération de voix de dialogue naturelles et fluidesLa capacité à traduire un dialogue textuel en un discours naturel et expressif, en saisissant avec précision le rythme et l'intonation du dialogue.
Clonage de la tonalité de plusieurs haut-parleurs par échantillonnage zéroLes sons des différents interlocuteurs sont générés sur la base de scripts de dialogue, sans échantillons de voix supplémentaires, afin de faciliter le passage d'un dialogue à l'autre.
Soutien bilingueLa génération de discours de haute qualité en chinois et en anglais permet de répondre aux besoins des scénarios multilingues.
Génération de discours longsLe codec à faible débit permet de générer jusqu'à 960 secondes de parole en un seul passage, évitant ainsi les transitions non naturelles de la parole épissée.
Open Source et préparation des entreprisesLes poids du modèle, le code d'inférence et les interfaces API sont entièrement libres et permettent une utilisation commerciale gratuite, ce qui facilite le déploiement rapide d'applications pour les développeurs et les entreprises.

Adresse du site officiel du MOSS-TTSD

Site web du projet: : https://www.open-moss.com/en/moss-ttsd/
Dépôt Github: : https://github.com/OpenMOSS/MOSS-TTSD
Bibliothèque de modèles HuggingFace: : https://huggingface.co/fnlp/MOSS-TTSD-v0.5
Démonstration de l'expérience en ligne: : https://huggingface.co/spaces/fnlp/MOSS-TTSD

Comment utiliser MOSS-TTSD

Préparation de l'environnement: :
- Installation des pilotes NVIDIAPour plus d'informations, veuillez consulter la page suivante : Assurez-vous que les dernières versions des pilotes NVIDIA et de CUDA Toolkit sont installées.
- Installation de Python et des dépendances: :

pip install torch torchvision torchaudio transformers soundfile

Obtenir le modèleTélécharger les modèles de Hugging Face: :

git clone https://huggingface.co/fnlp/MOSS-TTSD-v0.5

Charger les modèles et générer des discours

from transformers import AutoModelForTextToSpeech, AutoTokenizer
import soundfile as sf

# 加载模型和分词器
model_name = "fnlp/MOSS-TTSD-v0.5"
model = AutoModelForTextToSpeech.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 输入文本
text = "你好，这是一个测试对话。"
inputs = tokenizer(text, return_tensors="pt")

# 生成语音
audio = model.generate(**inputs)

# 保存语音文件
sf.write("output.wav", audio.numpy(), model.config.sampling_rate)

Vérification de l'environnement opérationnelVérification de la prise en charge du GPU: :

import torch
print(torch.cuda.is_available())

Principaux avantages de MOSS-TTSD

Génération d'une parole naturelle et fluideLa capacité à convertir un dialogue textuel en un discours naturel, fluide et expressif qui restitue avec précision la rime et l'intonation du dialogue.
Clonage de la tonalité du multi-talkerLe système de clonage de tonalité à zéro échantillon, qui génère les tonalités de différents interlocuteurs sans nécessiter d'échantillons vocaux supplémentaires, permet de changer de dialogue de manière naturelle.
Soutien bilingueLa génération de discours de haute qualité en chinois et en anglais permet de répondre aux besoins des scénarios multilingues.
Traitement efficace des données et pré-entraînementIl est basé sur un cadre d'apprentissage optimisé qui garantit la qualité et l'efficacité de la parole générée.
Open Source et préparation des entreprisesLe modèle est entièrement ouvert et permet une utilisation commerciale gratuite, ce qui facilite le déploiement et l'application rapides par les développeurs.
Large éventail de scénarios d'applicationIl convient à la baladodiffusion AI, au doublage de films et de programmes télévisés, aux interviews de longue durée, aux reportages d'actualité et à la diffusion en direct d'informations sur le commerce électronique.
l'innovation technologiqueLe système de codage XY-Tokenizer permet d'améliorer les performances et l'efficacité de la génération de la parole grâce à un codeur innovant de discrétisation de la parole et à un codec à faible débit binaire.

Personnes auxquelles s'adresse le MOSS-TTSD

créateur de contenuIl permet de produire des podcasts AI, des voix off vidéo, des bulletins d'information et bien d'autres choses encore, en générant rapidement des conversations naturelles et fluides.
Équipe de production cinématographique et télévisuelleLes services de doublage des dialogues pour les productions cinématographiques et télévisuelles, avec la prise en charge du clonage des tonalités de plusieurs locuteurs, permettent d'améliorer l'efficacité de la production.
médias d'informationLes services d'information et de communication de la Commission européenne ont pour mission d'améliorer la qualité de l'information et la lisibilité des journaux télévisés en créant des voix off naturelles.
praticien du commerce électroniqueLes services d'aide à la décision : Engagez votre public et stimulez l'interactivité grâce à des dialogues humains numériques dans le cadre de diffusions en direct sur le commerce électronique.
Développeur technologiqueDéveloppement secondaire à l'aide de modèles à source ouverte, intégration dans diverses applications vocales et extension des fonctionnalités.