MOSS-TTSD - Modelo de geração de fala de diálogo bilíngue de código aberto do Tsinghua Lab
O que é MOSS-TTSD
O MOSS-TTSD é um modelo de diálogo falado de código aberto desenvolvido pelo Speech and Language Lab da Universidade de Tsinghua. O MOSS-TTSD pode transformar scripts de diálogos textuais em fala natural, suave e expressiva, além de oferecer suporte à geração bilíngue em inglês e chinês. O modelo baseia-se em um codec de áudio de rede neural semântico-fonética avançado e em um modelo de linguagem pré-treinado em grande escala, combinados com mais de 1 milhão de horas de dados de fala de uma única pessoa e 400.000 horas de dados de fala de conversação para treinamento. O MOSS-TTSD é compatível com a clonagem de fala de amostra zero, que gera vozes precisas de troca de interlocutor com base nos scripts de diálogo e consegue a clonagem de timbre sem amostras adicionais. O MOSS-TTSD é adequado para podcasts de IA, dublagem de filmes e TV, entrevistas longas, reportagens e transmissões ao vivo de comércio eletrônico, etc. É totalmente de código aberto e suporta o uso comercial gratuito.

Principais recursos do MOSS-TTSD
- Geração de voz de diálogo natural e suaveCapacidade de traduzir um diálogo textual em uma fala natural e expressiva que capta com precisão a rima e a entonação do diálogo.
- Clonagem de tons de vários alto-falantes com amostragem zeroGeração de tons de diferentes interlocutores com base em scripts de diálogo sem amostras de voz adicionais para uma troca de diálogo suave.
- Suporte bilíngueEle oferece suporte à geração de fala de alta qualidade em chinês e inglês para atender às necessidades de cenários multilíngues.
- Geração de discurso longoO codec de baixa taxa de bits permite a geração de até 960 segundos de fala em uma única passagem, evitando as transições não naturais da fala emendada.
- Código aberto e prontidão comercialOs pesos do modelo, o código de inferência e as interfaces de API são totalmente de código aberto e suportam o uso comercial gratuito, facilitando a rápida implantação de aplicativos para desenvolvedores e empresas.
Endereço do site oficial da MOSS-TTSD
- Site do projeto:: https://www.open-moss.com/en/moss-ttsd/
- Repositório do Github:: https://github.com/OpenMOSS/MOSS-TTSD
- Biblioteca do modelo HuggingFace:: https://huggingface.co/fnlp/MOSS-TTSD-v0.5
- Demonstração da experiência on-line:: https://huggingface.co/spaces/fnlp/MOSS-TTSD
Como usar o MOSS-TTSD
- Preparação ambiental::
- Instalação de drivers NVIDIACertifique-se de que as versões mais recentes dos drivers NVIDIA e do kit de ferramentas CUDA estejam instaladas.
- Instalação do Python e das dependências::
pip install torch torchvision torchaudio transformers soundfile
- Obtendo o modeloDownload de modelos do Hugging Face::
git clone https://huggingface.co/fnlp/MOSS-TTSD-v0.5
- Carregar modelos e gerar discurso
from transformers import AutoModelForTextToSpeech, AutoTokenizer
import soundfile as sf
# 加载模型和分词器
model_name = "fnlp/MOSS-TTSD-v0.5"
model = AutoModelForTextToSpeech.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 输入文本
text = "你好,这是一个测试对话。"
inputs = tokenizer(text, return_tensors="pt")
# 生成语音
audio = model.generate(**inputs)
# 保存语音文件
sf.write("output.wav", audio.numpy(), model.config.sampling_rate)
- Verificação do ambiente operacionalVerificar o suporte à GPU::
import torch
print(torch.cuda.is_available())
Principais benefícios do MOSS-TTSD
- Geração de fala natural e suaveCapacidade de converter um diálogo textual em uma fala natural, fluente e expressiva que capte com precisão a rima e a entonação do diálogo.
- Clonagem de tons de vários locutoresA clonagem de tons com amostra zero é compatível com a geração de tons de diferentes interlocutores sem amostras de voz adicionais para a troca natural de diálogos.
- Suporte bilíngueSuporte à geração de fala de alta qualidade em chinês e inglês para atender às necessidades de cenários multilíngues.
- Processamento de dados e pré-treinamento eficientesCombinado com dados de fala em grande escala para treinamento, com base em uma estrutura de treinamento otimizada que garante alta qualidade e eficiência da fala gerada.
- Código aberto e prontidão comercialO modelo é totalmente de código aberto e suporta o uso comercial gratuito, facilitando a rápida implantação e aplicação pelos desenvolvedores.
- Ampla gama de cenários de aplicaçãoEle é adequado para podcasting de IA, dublagem de filmes e TV, entrevistas longas, reportagens e transmissão ao vivo de comércio eletrônico.
- inovação tecnológicaXY-Tokenizer: aprimora o desempenho e a eficiência da geração de fala com base em um codificador inovador de discretização de fala, o XY-Tokenizer, e um codec de baixa taxa de bits.
Pessoas a quem o MOSS-TTSD se destina
- criador de conteúdoUse-o para produzir podcasts de IA, locuções de vídeo, noticiários e muito mais, gerando rapidamente um discurso de conversação natural e suave.
- Equipe de produção de filmes e TVDublagem de diálogos para produções de cinema e televisão, com suporte à clonagem de tons de vários alto-falantes para aumentar a eficiência da produção.
- mídia de notíciasGeração de locuções naturais de conversação para melhorar a atratividade e a legibilidade das notícias.
- Profissional de comércio eletrônicoEnvolva seu público e aumente a interatividade com bandwagons de diálogo humano digital em transmissões ao vivo de comércio eletrônico.
- Desenvolvedor de tecnologiaDesenvolvimento secundário com modelos de código aberto, integração em vários aplicativos de fala e expansão da funcionalidade.
© declaração de direitos autorais
O artigo é protegido por direitos autorais e não deve ser reproduzido sem permissão.
Artigos relacionados
Nenhum comentário...