MOSS-TTSD - Modelo de geração de fala de diálogo bilíngue de código aberto do Tsinghua Lab

Recursos mais recentes de IAAtualizado há 1 mês Círculo de compartilhamento de IA

19.2K 00

O que é MOSS-TTSD

O MOSS-TTSD é um modelo de diálogo falado de código aberto desenvolvido pelo Speech and Language Lab da Universidade de Tsinghua. O MOSS-TTSD pode transformar scripts de diálogos textuais em fala natural, suave e expressiva, além de oferecer suporte à geração bilíngue em inglês e chinês. O modelo baseia-se em um codec de áudio de rede neural semântico-fonética avançado e em um modelo de linguagem pré-treinado em grande escala, combinados com mais de 1 milhão de horas de dados de fala de uma única pessoa e 400.000 horas de dados de fala de conversação para treinamento. O MOSS-TTSD é compatível com a clonagem de fala de amostra zero, que gera vozes precisas de troca de interlocutor com base nos scripts de diálogo e consegue a clonagem de timbre sem amostras adicionais. O MOSS-TTSD é adequado para podcasts de IA, dublagem de filmes e TV, entrevistas longas, reportagens e transmissões ao vivo de comércio eletrônico, etc. É totalmente de código aberto e suporta o uso comercial gratuito.

Principais recursos do MOSS-TTSD

Geração de voz de diálogo natural e suaveCapacidade de traduzir um diálogo textual em uma fala natural e expressiva que capta com precisão a rima e a entonação do diálogo.
Clonagem de tons de vários alto-falantes com amostragem zeroGeração de tons de diferentes interlocutores com base em scripts de diálogo sem amostras de voz adicionais para uma troca de diálogo suave.
Suporte bilíngueEle oferece suporte à geração de fala de alta qualidade em chinês e inglês para atender às necessidades de cenários multilíngues.
Geração de discurso longoO codec de baixa taxa de bits permite a geração de até 960 segundos de fala em uma única passagem, evitando as transições não naturais da fala emendada.
Código aberto e prontidão comercialOs pesos do modelo, o código de inferência e as interfaces de API são totalmente de código aberto e suportam o uso comercial gratuito, facilitando a rápida implantação de aplicativos para desenvolvedores e empresas.

Endereço do site oficial da MOSS-TTSD

Site do projeto:: https://www.open-moss.com/en/moss-ttsd/
Repositório do Github:: https://github.com/OpenMOSS/MOSS-TTSD
Biblioteca do modelo HuggingFace:: https://huggingface.co/fnlp/MOSS-TTSD-v0.5
Demonstração da experiência on-line:: https://huggingface.co/spaces/fnlp/MOSS-TTSD

Como usar o MOSS-TTSD

Preparação ambiental::
- Instalação de drivers NVIDIACertifique-se de que as versões mais recentes dos drivers NVIDIA e do kit de ferramentas CUDA estejam instaladas.
- Instalação do Python e das dependências::

pip install torch torchvision torchaudio transformers soundfile

Obtendo o modeloDownload de modelos do Hugging Face::

git clone https://huggingface.co/fnlp/MOSS-TTSD-v0.5

Carregar modelos e gerar discurso

from transformers import AutoModelForTextToSpeech, AutoTokenizer
import soundfile as sf

# 加载模型和分词器
model_name = "fnlp/MOSS-TTSD-v0.5"
model = AutoModelForTextToSpeech.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 输入文本
text = "你好，这是一个测试对话。"
inputs = tokenizer(text, return_tensors="pt")

# 生成语音
audio = model.generate(**inputs)

# 保存语音文件
sf.write("output.wav", audio.numpy(), model.config.sampling_rate)

Verificação do ambiente operacionalVerificar o suporte à GPU::

import torch
print(torch.cuda.is_available())

Principais benefícios do MOSS-TTSD

Geração de fala natural e suaveCapacidade de converter um diálogo textual em uma fala natural, fluente e expressiva que capte com precisão a rima e a entonação do diálogo.
Clonagem de tons de vários locutoresA clonagem de tons com amostra zero é compatível com a geração de tons de diferentes interlocutores sem amostras de voz adicionais para a troca natural de diálogos.
Suporte bilíngueSuporte à geração de fala de alta qualidade em chinês e inglês para atender às necessidades de cenários multilíngues.
Processamento de dados e pré-treinamento eficientesCombinado com dados de fala em grande escala para treinamento, com base em uma estrutura de treinamento otimizada que garante alta qualidade e eficiência da fala gerada.
Código aberto e prontidão comercialO modelo é totalmente de código aberto e suporta o uso comercial gratuito, facilitando a rápida implantação e aplicação pelos desenvolvedores.
Ampla gama de cenários de aplicaçãoEle é adequado para podcasting de IA, dublagem de filmes e TV, entrevistas longas, reportagens e transmissão ao vivo de comércio eletrônico.
inovação tecnológicaXY-Tokenizer: aprimora o desempenho e a eficiência da geração de fala com base em um codificador inovador de discretização de fala, o XY-Tokenizer, e um codec de baixa taxa de bits.

Pessoas a quem o MOSS-TTSD se destina

criador de conteúdoUse-o para produzir podcasts de IA, locuções de vídeo, noticiários e muito mais, gerando rapidamente um discurso de conversação natural e suave.
Equipe de produção de filmes e TVDublagem de diálogos para produções de cinema e televisão, com suporte à clonagem de tons de vários alto-falantes para aumentar a eficiência da produção.
mídia de notíciasGeração de locuções naturais de conversação para melhorar a atratividade e a legibilidade das notícias.
Profissional de comércio eletrônicoEnvolva seu público e aumente a interatividade com bandwagons de diálogo humano digital em transmissões ao vivo de comércio eletrônico.
Desenvolvedor de tecnologiaDesenvolvimento secundário com modelos de código aberto, integração em vários aplicativos de fala e expansão da funcionalidade.