MOSS-TTSD - Modelo de código abierto para la generación de diálogos bilingües del laboratorio Tsinghua

Últimos recursos sobre IAActualizado hace 8 meses Círculo de intercambio de inteligencia artificial

46.5K 00

Qué es el MOSS-TTSD

MOSS-TTSD es un modelo de diálogo hablado de código abierto desarrollado por el Laboratorio de Habla y Lenguaje de la Universidad de Tsinghua. MOSS-TTSD puede transformar guiones de diálogo textuales en habla natural, fluida y expresiva, y admite la generación bilingüe en inglés y chino. El modelo se basa en un avanzado códec de audio de red neural semántico-fonética y en un modelo de lenguaje preentrenado a gran escala, combinado con más de un millón de horas de datos de habla de una sola persona y 400.000 horas de datos de habla conversacional para el entrenamiento.MOSS-TTSD soporta la clonación de habla con cero muestras, lo que genera voces de cambio de interlocutor precisas basadas en los guiones de diálogo, y logra la clonación de timbre sin muestras adicionales.MOSS-TTSD es adecuado para podcasts de IA, y se puede utilizar en una variedad de aplicaciones. MOSS-TTSD es adecuado para podcasts de IA, doblaje de películas y televisión, entrevistas de larga duración, reportajes de noticias y retransmisiones en directo de comercio electrónico, etc. Es completamente de código abierto y admite el uso comercial gratuito.

Características principales de MOSS-TTSD

Generación de voz de diálogo natural y fluida: Capacidad para traducir un diálogo textual en un discurso natural y expresivo, captando con precisión el ritmo y la entonación del diálogo.
Clonación de tonos multialtavoz de muestra ceroGeneración de tonos de distintos interlocutores a partir de guiones de diálogo sin muestras de voz adicionales para cambiar de diálogo sin problemas.
Asistencia bilingüeAdmite la generación de voz de alta calidad tanto en chino como en inglés para satisfacer las necesidades de los escenarios multilingües.
Generación de discursos largosEl códec de baja velocidad de bits permite generar hasta 960 segundos de habla en una sola pasada, evitando las transiciones poco naturales del habla empalmada.
Código abierto y preparación empresarialLos pesos del modelo, el código de inferencia y las interfaces API son completamente de código abierto y admiten el uso comercial gratuito, lo que facilita el rápido despliegue de aplicaciones para desarrolladores y empresas.

Dirección del sitio web oficial del MOSS-TTSD

Página web del proyecto:: https://www.open-moss.com/en/moss-ttsd/
Repositorio Github:: https://github.com/OpenMOSS/MOSS-TTSD
Biblioteca de modelos HuggingFace:: https://huggingface.co/fnlp/MOSS-TTSD-v0.5
Demostración de la experiencia en línea:: https://huggingface.co/spaces/fnlp/MOSS-TTSD

Cómo utilizar el MOSS-TTSD

Preparación medioambiental::
- Instalación de los controladores NVIDIAAsegúrese de que están instaladas las últimas versiones de los controladores NVIDIA y CUDA Toolkit.
- Instalación de Python y dependencias::

pip install torch torchvision torchaudio transformers soundfile

Obtener el modeloDescargar modelos de Hugging Face::

git clone https://huggingface.co/fnlp/MOSS-TTSD-v0.5

Cargar modelos y generar discurso

from transformers import AutoModelForTextToSpeech, AutoTokenizer
import soundfile as sf

# 加载模型和分词器
model_name = "fnlp/MOSS-TTSD-v0.5"
model = AutoModelForTextToSpeech.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 输入文本
text = "你好，这是一个测试对话。"
inputs = tokenizer(text, return_tensors="pt")

# 生成语音
audio = model.generate(**inputs)

# 保存语音文件
sf.write("output.wav", audio.numpy(), model.config.sampling_rate)

Comprobación del entorno operativo: Comprueba la compatibilidad con la GPU::

import torch
print(torch.cuda.is_available())

Principales ventajas de MOSS-TTSD

Generación de voz natural y fluidaCapacidad para convertir un diálogo textual en un discurso natural, fluido y expresivo que capte con precisión la rima y la entonación del diálogo.
Clonación de tonos multiparlantes.Se admite la clonación de tonos de muestra cero para generar tonos de distintos interlocutores sin muestras de voz adicionales para un cambio de diálogo natural.
Asistencia bilingüe: Admite la generación de voz de alta calidad tanto en chino como en inglés para satisfacer las necesidades de los escenarios multilingües.
Procesamiento de datos y preentrenamiento eficaces: Combinado con datos de habla a gran escala para el entrenamiento, basado en un marco de entrenamiento optimizado que garantiza una alta calidad y eficiencia del habla generada.
Código abierto y preparación empresarial: El modelo es totalmente de código abierto y admite el uso comercial gratuito, lo que facilita su rápida implantación y aplicación por parte de los desarrolladores.
Amplia gama de aplicacionesEs adecuado para podcasting de IA, doblaje de películas y televisión, entrevistas de larga duración, reportajes de noticias y retransmisiones en directo de comercio electrónico.
innovación tecnológica: Mejora el rendimiento y la eficacia de la generación de voz basándose en un innovador codificador de discretización de voz, XY-Tokenizer, y un códec de baja tasa de bits.

Personas a las que va dirigido el MOSS-TTSD

creador de contenidosUtilícelo para producir podcasts de IA, locuciones de vídeo, noticiarios y mucho más, generando rápidamente un habla conversacional natural y fluida.
Equipo de producción de cine y televisión: Realización de doblajes de diálogos para producciones cinematográficas y televisivas, apoyando la clonación de tonos de varios locutores para mejorar la eficacia de la producción.
medios de comunicación: Genere noticiarios de voz en off conversacional natural para mejorar el atractivo y la legibilidad de las noticias.
profesional del comercio electrónico: Atraiga a su audiencia e impulse la interactividad con bandas digitales de diálogo humano en retransmisiones de comercio electrónico en directo.
Desarrollador tecnológicoDesarrollo secundario con modelos de código abierto, integración en diversas aplicaciones de voz y ampliación de la funcionalidad.