MOSS-TTSD - Modelo de geração de fala de diálogo bilíngue de código aberto do Tsinghua Lab

O que é MOSS-TTSD

O MOSS-TTSD é um modelo de diálogo falado de código aberto desenvolvido pelo Speech and Language Lab da Universidade de Tsinghua. O MOSS-TTSD pode transformar scripts de diálogos textuais em fala natural, suave e expressiva, além de oferecer suporte à geração bilíngue em inglês e chinês. O modelo baseia-se em um codec de áudio de rede neural semântico-fonética avançado e em um modelo de linguagem pré-treinado em grande escala, combinados com mais de 1 milhão de horas de dados de fala de uma única pessoa e 400.000 horas de dados de fala de conversação para treinamento. O MOSS-TTSD é compatível com a clonagem de fala de amostra zero, que gera vozes precisas de troca de interlocutor com base nos scripts de diálogo e consegue a clonagem de timbre sem amostras adicionais. O MOSS-TTSD é adequado para podcasts de IA, dublagem de filmes e TV, entrevistas longas, reportagens e transmissões ao vivo de comércio eletrônico, etc. É totalmente de código aberto e suporta o uso comercial gratuito.

MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

Principais recursos do MOSS-TTSD

  • Geração de voz de diálogo natural e suaveCapacidade de traduzir um diálogo textual em uma fala natural e expressiva que capta com precisão a rima e a entonação do diálogo.
  • Clonagem de tons de vários alto-falantes com amostragem zeroGeração de tons de diferentes interlocutores com base em scripts de diálogo sem amostras de voz adicionais para uma troca de diálogo suave.
  • Suporte bilíngueEle oferece suporte à geração de fala de alta qualidade em chinês e inglês para atender às necessidades de cenários multilíngues.
  • Geração de discurso longoO codec de baixa taxa de bits permite a geração de até 960 segundos de fala em uma única passagem, evitando as transições não naturais da fala emendada.
  • Código aberto e prontidão comercialOs pesos do modelo, o código de inferência e as interfaces de API são totalmente de código aberto e suportam o uso comercial gratuito, facilitando a rápida implantação de aplicativos para desenvolvedores e empresas.

Endereço do site oficial da MOSS-TTSD

  • Site do projeto:: https://www.open-moss.com/en/moss-ttsd/
  • Repositório do Github:: https://github.com/OpenMOSS/MOSS-TTSD
  • Biblioteca do modelo HuggingFace:: https://huggingface.co/fnlp/MOSS-TTSD-v0.5
  • Demonstração da experiência on-line:: https://huggingface.co/spaces/fnlp/MOSS-TTSD

Como usar o MOSS-TTSD

  • Preparação ambiental::
    • Instalação de drivers NVIDIACertifique-se de que as versões mais recentes dos drivers NVIDIA e do kit de ferramentas CUDA estejam instaladas.
    • Instalação do Python e das dependências::
pip install torch torchvision torchaudio transformers soundfile
  • Obtendo o modeloDownload de modelos do Hugging Face::
git clone https://huggingface.co/fnlp/MOSS-TTSD-v0.5
  • Carregar modelos e gerar discurso
from transformers import AutoModelForTextToSpeech, AutoTokenizer
import soundfile as sf

# 加载模型和分词器
model_name = "fnlp/MOSS-TTSD-v0.5"
model = AutoModelForTextToSpeech.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 输入文本
text = "你好,这是一个测试对话。"
inputs = tokenizer(text, return_tensors="pt")

# 生成语音
audio = model.generate(**inputs)

# 保存语音文件
sf.write("output.wav", audio.numpy(), model.config.sampling_rate)
  • Verificação do ambiente operacionalVerificar o suporte à GPU::
import torch
print(torch.cuda.is_available())

Principais benefícios do MOSS-TTSD

  • Geração de fala natural e suaveCapacidade de converter um diálogo textual em uma fala natural, fluente e expressiva que capte com precisão a rima e a entonação do diálogo.
  • Clonagem de tons de vários locutoresA clonagem de tons com amostra zero é compatível com a geração de tons de diferentes interlocutores sem amostras de voz adicionais para a troca natural de diálogos.
  • Suporte bilíngueSuporte à geração de fala de alta qualidade em chinês e inglês para atender às necessidades de cenários multilíngues.
  • Processamento de dados e pré-treinamento eficientesCombinado com dados de fala em grande escala para treinamento, com base em uma estrutura de treinamento otimizada que garante alta qualidade e eficiência da fala gerada.
  • Código aberto e prontidão comercialO modelo é totalmente de código aberto e suporta o uso comercial gratuito, facilitando a rápida implantação e aplicação pelos desenvolvedores.
  • Ampla gama de cenários de aplicaçãoEle é adequado para podcasting de IA, dublagem de filmes e TV, entrevistas longas, reportagens e transmissão ao vivo de comércio eletrônico.
  • inovação tecnológicaXY-Tokenizer: aprimora o desempenho e a eficiência da geração de fala com base em um codificador inovador de discretização de fala, o XY-Tokenizer, e um codec de baixa taxa de bits.

Pessoas a quem o MOSS-TTSD se destina

  • criador de conteúdoUse-o para produzir podcasts de IA, locuções de vídeo, noticiários e muito mais, gerando rapidamente um discurso de conversação natural e suave.
  • Equipe de produção de filmes e TVDublagem de diálogos para produções de cinema e televisão, com suporte à clonagem de tons de vários alto-falantes para aumentar a eficiência da produção.
  • mídia de notíciasGeração de locuções naturais de conversação para melhorar a atratividade e a legibilidade das notícias.
  • Profissional de comércio eletrônicoEnvolva seu público e aumente a interatividade com bandwagons de diálogo humano digital em transmissões ao vivo de comércio eletrônico.
  • Desenvolvedor de tecnologiaDesenvolvimento secundário com modelos de código aberto, integração em vários aplicativos de fala e expansão da funcionalidade.
© declaração de direitos autorais
AiPPT

Artigos relacionados

Sem comentários

Você precisa estar conectado para participar dos comentários!
Faça login agora
nenhum
Nenhum comentário...