Parler-TTS : générer des modèles de synthèse vocale spécifiques au locuteur à partir d'un texte d'entrée

Dernières ressources sur l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

19.5K 00

Introduction générale

Parler-TTS est une bibliothèque de modèles de synthèse vocale (TTS) open-source développée par Hugging Face pour générer une parole de haute qualité et à consonance naturelle. Le modèle est capable de générer de la parole avec un style de locuteur spécifique (par exemple, le genre, la hauteur, le style d'élocution, etc.) basé sur le texte d'entrée.Parler-TTS est basé sur les résultats de la recherche dans l'article "Natural language guidance of high-fidelity text-to-speech with synthetic". Parler-TTS est basé sur les résultats de recherche de l'article "Natural language guidance of high-fidelity text-to-speech with synthetic annotations", et est entièrement open source, avec tous les ensembles de données, le prétraitement, le code d'entraînement, et les poids publiquement disponibles, permettant à la communauté de les développer et de les améliorer.

Liste des fonctions

Génération de discours de haute qualitéGénération de discours naturels et fluides avec prise en charge de plusieurs styles de locuteurs.
source ouverteLes poids des codes et des modèles sont mis à la disposition du public à des fins de développement et d'amélioration de la communauté.
Dépendances légères: Simple à installer et à utiliser, avec peu de dépendances.
Plusieurs versions de modèlesParler-TTS Mini et Parler-TTS Large : Des versions du modèle avec différents nombres de paramètres sont disponibles.
Génération rapideLa vitesse de génération est optimisée grâce à la prise en charge de SDPA et de Flash Attention 2.
Ensembles de données et pondérationsLe système de gestion des données : Il fournit des ensembles de données riches et des poids de modèles pré-entraînés pour faciliter l'entraînement et l'ajustement.

Utiliser l'aide

Processus d'installation

Assurez-vous que l'environnement Python est installé.
Utilisez la commande suivante pour installer la bibliothèque Parler-TTS :

   pip install git+https://github.com/huggingface/parler-tts.git

Pour les utilisateurs d'Apple Silicon, exécutez la commande suivante pour prendre en charge bfloat16 :

   pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

Utilisation

Générer un discours aléatoire

Importer les bibliothèques nécessaires :

   import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

Modèles de chargement et séparateurs :

   device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")

Saisissez du texte et générez de la voix :

   prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch."
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output.wav", outputs.cpu().numpy(), 22050)

Générer un discours dans un style spécifique

Les descriptions qui utilisent le style d'un locuteur particulier :

   description = "A male speaker with a deep voice and slow pace."
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output_specific.wav", outputs.cpu().numpy(), 22050)

Modèles de formation

Télécharger et préparer le jeu de données.
L'apprentissage du modèle est effectué à l'aide du code d'apprentissage fourni :

   python train.py --dataset_path /path/to/dataset --output_dir /path/to/output

Raisonnement optimisé

Optimisé à l'aide de SDPA et Flash Attention 2 :

   model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1", use_flash_attention=True).to(device)

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

GeminiCoder：基于LlamaCoder项目，使用Gemini API快速生成Web应用程序

GeminiCoder : Basé sur le projet LlamaCoder, utilisez l'API Gemini pour générer rapidement des applications web.

Dernières ressources sur l'IA # AI Java Open Source Projecct # Programmation AI

Il y a 9 mois

018.7K

LiveTalking : système numérique interactif en temps réel à source ouverte, permettant d'établir un dialogue audio et vidéo synchrone.

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Digital Man

Il y a 8 mois

029.8K

dots.vlm1 - Petit livre rouge hi lab open source multimodal grand modèle

Dernières ressources sur l'IA

Il y a 1 mois

018.5K

Cloud Studio：云端 IDE，编写和运行各类依赖GPU的AI应用，每月免费50000小时GPU

Cloud Studio : IDE cloud pour écrire et exécuter toutes sortes d'applications IA dépendantes du GPU, 50 000 heures de GPU gratuites par mois.

Dernières ressources sur l'IA # AI IDE # AI Open Services

Il y a 8 mois

020.8K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Parler-TTS : générer des modèles de synthèse vocale spécifiques au locuteur à partir d'un texte d'entrée

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Utilisation

Générer un discours aléatoire

Générer un discours dans un style spécifique

Modèles de formation

Raisonnement optimisé

OpenAOE : Cadre de discussion de groupe sur les grands modèles : discussion simultanée avec plusieurs grands modèles linguistiques

Excellent outil de téléchargement de logiciels libres recommandé par Github

Articles connexes

GeminiCoder : Basé sur le projet LlamaCoder, utilisez l'API Gemini pour générer rapidement des applications web.

LiveTalking : système numérique interactif en temps réel à source ouverte, permettant d'établir un dialogue audio et vidéo synchrone.

dots.vlm1 - Petit livre rouge hi lab open source multimodal grand modèle

Cloud Studio : IDE cloud pour écrire et exécuter toutes sortes d'applications IA dépendantes du GPU, 50 000 heures de GPU gratuites par mois.

Pas de commentaires

Dernières collections

Derniers articles

Parler-TTS : générer des modèles de synthèse vocale spécifiques au locuteur à partir d'un texte d'entrée

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Utilisation

Générer un discours aléatoire

Générer un discours dans un style spécifique

Modèles de formation

Raisonnement optimisé

OpenAOE : Cadre de discussion de groupe sur les grands modèles : discussion simultanée avec plusieurs grands modèles linguistiques

Excellent outil de téléchargement de logiciels libres recommandé par Github

Articles connexes

GeminiCoder : Basé sur le projet LlamaCoder, utilisez l'API Gemini pour générer rapidement des applications web.

LiveTalking : système numérique interactif en temps réel à source ouverte, permettant d'établir un dialogue audio et vidéo synchrone.

dots.vlm1 - Petit livre rouge hi lab open source multimodal grand modèle

Cloud Studio : IDE cloud pour écrire et exécuter toutes sortes d'applications IA dépendantes du GPU, 50 000 heures de GPU gratuites par mois.

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles