OuteTTS : modèle expérimental de synthèse vocale, TTS mis en œuvre à l'aide d'une approche de modélisation du langage pur

Introduction générale

OuteTTS est un modèle expérimental de synthèse vocale qui utilise une approche de modélisation du langage pur pour générer une parole de haute qualité. Contrairement aux systèmes TTS traditionnels, OuteTTS ne nécessite pas d'adaptateurs externes ou d'architectures complexes. Le modèle est basé sur l'architecture LLaMa et prend en charge une fonction de clonage de la parole qui permet de générer de la parole avec des caractéristiques aléatoires du locuteur.OuteTTS vise à réaliser une synthèse vocale efficace grâce à une architecture simple adaptée à un large éventail de scénarios d'application.

OuteTTS-0.1-350M est un pas en avant dans la simplification de la synthèse texte-parole. OuteTTS-0.1-350M prouve qu'une parole de haute qualité peut être générée par une approche de modélisation purement linguistique.

 

Liste des fonctions

  • synthèse vocaleLe logiciel : convertit un texte dactylographié en une parole naturelle et fluide.
  • clonage de la paroleLes locuteurs : Créez des locuteurs personnalisés en référençant des fichiers audio et en générant les paroles correspondantes.
  • Prise en charge de plusieurs modèlesLe modèle Hugging Face et le modèle GGUF sont pris en charge.
  • Lecture et enregistrement audioLa voix générée peut être jouée directement ou enregistrée sous forme de fichier audio.
  • Température et pénalité pour récidiveContrôle de la diversité et de la fluidité de la parole générée en ajustant les paramètres de température et de pénalité de répétition.

 

Utiliser l'aide

Processus d'installation

  1. Installation d'OuteTTS: :
    pip install outetts
    

    Important : pour la prise en charge de GGUF, vous devez installer manuellement le fichier llama-cpp-python. Veuillez consulter le site llama-cpp-python Obtenir des instructions d'installation spécifiques.

Utilisation

  1. Initialiser l'interface: :
    from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF
    # 使用 Hugging Face 模型初始化接口
    interface = InterfaceHF("OuteAI/OuteTTS-0.1-350M")
    # 或者使用 GGUF 模型初始化接口
    # interface = InterfaceGGUF("path/to/model.gguf")
    
  2. Générer une sortie TTS: :
    output = interface.generate(
    text="Hello, am I working?",
    temperature=0.1,
    repetition_penalty=1.1,
    max_length=4096
    )
    
  3. Lecture et enregistrement des fichiers audio générés: :
    # 播放生成的音频
    output.play()
    # 保存生成的音频到文件
    output.save("output.wav")
    

clonage de la parole

  1. Création de haut-parleurs personnalisés: :
    speaker = interface.create_speaker(
    "path/to/reference.wav",
    "reference text matching the audio"
    )
    
  2. Sauvegarde et chargement des enceintes: :
    # 保存说话人到文件
    interface.save_speaker(speaker, "speaker.pkl")
    # 从文件加载说话人
    speaker = interface.load_speaker("speaker.pkl")
    
  3. Génération de TTS avec Custom Speech: :
    output = interface.generate(
    text="This is a cloned voice speaking",
    speaker=speaker,
    temperature=0.1,
    repetition_penalty=1.1,
    max_length=4096
    )
    

paramétrage

  • Température: Contrôle la diversité du discours généré. Des températures plus basses (par exemple, 0,1) génèrent des résultats plus déterministes, tandis que des températures plus élevées (par exemple, 0,7) génèrent des résultats plus diversifiés.
  • Pénalité de répétition (repetition_penalty): Contrôle le niveau de répétition dans le discours généré. Une pénalité de répétition plus élevée (par exemple, 1,1) réduit la génération de contenu dupliqué.

Grâce aux étapes ci-dessus, les utilisateurs peuvent facilement installer et utiliser le modèle OuteTTS pour la synthèse vocale et les opérations de clonage de la parole. Des réglages détaillés des paramètres et des exemples d'utilisation peuvent aider les utilisateurs à générer des sorties vocales de haute qualité en fonction de leurs besoins spécifiques.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...