MOSS-TTSD - Modelo de código abierto para la generación de diálogos bilingües del laboratorio Tsinghua
Últimos recursos sobre IAActualizado hace 5 días Círculo de intercambio de inteligencia artificial 912 00
Qué es el MOSS-TTSD
MOSS-TTSD es un modelo de diálogo hablado de código abierto desarrollado por el Laboratorio de Habla y Lenguaje de la Universidad de Tsinghua. MOSS-TTSD puede transformar guiones de diálogo textuales en habla natural, fluida y expresiva, y admite la generación bilingüe en inglés y chino. El modelo se basa en un avanzado códec de audio de red neural semántico-fonética y en un modelo de lenguaje preentrenado a gran escala, combinado con más de un millón de horas de datos de habla de una sola persona y 400.000 horas de datos de habla conversacional para el entrenamiento.MOSS-TTSD soporta la clonación de habla con cero muestras, lo que genera voces de cambio de interlocutor precisas basadas en los guiones de diálogo, y logra la clonación de timbre sin muestras adicionales.MOSS-TTSD es adecuado para podcasts de IA, y se puede utilizar en una variedad de aplicaciones. MOSS-TTSD es adecuado para podcasts de IA, doblaje de películas y televisión, entrevistas de larga duración, reportajes de noticias y retransmisiones en directo de comercio electrónico, etc. Es completamente de código abierto y admite el uso comercial gratuito.

Características principales de MOSS-TTSD
- Generación de voz de diálogo natural y fluida: Capacidad para traducir un diálogo textual en un discurso natural y expresivo, captando con precisión el ritmo y la entonación del diálogo.
- Clonación de tonos multialtavoz de muestra ceroGeneración de tonos de distintos interlocutores a partir de guiones de diálogo sin muestras de voz adicionales para cambiar de diálogo sin problemas.
- Asistencia bilingüeAdmite la generación de voz de alta calidad tanto en chino como en inglés para satisfacer las necesidades de los escenarios multilingües.
- Generación de discursos largosEl códec de baja velocidad de bits permite generar hasta 960 segundos de habla en una sola pasada, evitando las transiciones poco naturales del habla empalmada.
- Código abierto y preparación empresarialLos pesos del modelo, el código de inferencia y las interfaces API son completamente de código abierto y admiten el uso comercial gratuito, lo que facilita el rápido despliegue de aplicaciones para desarrolladores y empresas.
Dirección del sitio web oficial del MOSS-TTSD
- Página web del proyecto:: https://www.open-moss.com/en/moss-ttsd/
- Repositorio Github:: https://github.com/OpenMOSS/MOSS-TTSD
- Biblioteca de modelos HuggingFace:: https://huggingface.co/fnlp/MOSS-TTSD-v0.5
- Demostración de la experiencia en línea:: https://huggingface.co/spaces/fnlp/MOSS-TTSD
Cómo utilizar el MOSS-TTSD
- Preparación medioambiental::
- Instalación de los controladores NVIDIAAsegúrese de que están instaladas las últimas versiones de los controladores NVIDIA y CUDA Toolkit.
- Instalación de Python y dependencias::
pip install torch torchvision torchaudio transformers soundfile
- Obtener el modeloDescargar modelos de Hugging Face::
git clone https://huggingface.co/fnlp/MOSS-TTSD-v0.5
- Cargar modelos y generar discurso
from transformers import AutoModelForTextToSpeech, AutoTokenizer
import soundfile as sf
# 加载模型和分词器
model_name = "fnlp/MOSS-TTSD-v0.5"
model = AutoModelForTextToSpeech.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 输入文本
text = "你好,这是一个测试对话。"
inputs = tokenizer(text, return_tensors="pt")
# 生成语音
audio = model.generate(**inputs)
# 保存语音文件
sf.write("output.wav", audio.numpy(), model.config.sampling_rate)
- Comprobación del entorno operativo: Comprueba la compatibilidad con la GPU::
import torch
print(torch.cuda.is_available())
Principales ventajas de MOSS-TTSD
- Generación de voz natural y fluidaCapacidad para convertir un diálogo textual en un discurso natural, fluido y expresivo que capte con precisión la rima y la entonación del diálogo.
- Clonación de tonos multiparlantes.Se admite la clonación de tonos de muestra cero para generar tonos de distintos interlocutores sin muestras de voz adicionales para un cambio de diálogo natural.
- Asistencia bilingüe: Admite la generación de voz de alta calidad tanto en chino como en inglés para satisfacer las necesidades de los escenarios multilingües.
- Procesamiento de datos y preentrenamiento eficaces: Combinado con datos de habla a gran escala para el entrenamiento, basado en un marco de entrenamiento optimizado que garantiza una alta calidad y eficiencia del habla generada.
- Código abierto y preparación empresarial: El modelo es totalmente de código abierto y admite el uso comercial gratuito, lo que facilita su rápida implantación y aplicación por parte de los desarrolladores.
- Amplia gama de aplicacionesEs adecuado para podcasting de IA, doblaje de películas y televisión, entrevistas de larga duración, reportajes de noticias y retransmisiones en directo de comercio electrónico.
- innovación tecnológica: Mejora el rendimiento y la eficacia de la generación de voz basándose en un innovador codificador de discretización de voz, XY-Tokenizer, y un códec de baja tasa de bits.
Personas a las que va dirigido el MOSS-TTSD
- creador de contenidosUtilícelo para producir podcasts de IA, locuciones de vídeo, noticiarios y mucho más, generando rápidamente un habla conversacional natural y fluida.
- Equipo de producción de cine y televisión: Realización de doblajes de diálogos para producciones cinematográficas y televisivas, apoyando la clonación de tonos de varios locutores para mejorar la eficacia de la producción.
- medios de comunicación: Genere noticiarios de voz en off conversacional natural para mejorar el atractivo y la legibilidad de las noticias.
- profesional del comercio electrónico: Atraiga a su audiencia e impulse la interactividad con bandas digitales de diálogo humano en retransmisiones de comercio electrónico en directo.
- Desarrollador tecnológicoDesarrollo secundario con modelos de código abierto, integración en diversas aplicaciones de voz y ampliación de la funcionalidad.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...