SoulX-Podcast - Modelo de síntesis de voz conversacional de código abierto de Soul AI Lab
 Últimos recursos sobre IAPublicado hace 1 día Círculo de intercambio de inteligencia artificial 1.9K 00
Qué es SoulX-Podcast
SoulX-Podcast es el modelo avanzado de síntesis de voz conversacional multihablante de código abierto de Soul AI Lab diseñado para generar contenidos de podcast de alta calidad. Es capaz de generar múltiples rondas de diálogos, simulando conversaciones fluidas en escenarios reales de podcasting, y es compatible con mandarín, inglés y múltiples dialectos chinos, como el sichuanés, el henanés y el cantonés. Admite la clonación del habla sin muestras entre dialectos, y puede generar diferentes voces dialectales a partir de una única señal de audio. El modelo incorpora una función de control paralingüístico, que puede generar elementos no verbales como risas y suspiros para realzar la naturalidad del habla. En la generación de diálogos de formato largo, SoulX-Podcast mantiene un timbre estable y cambios rítmicos naturales para producir diálogos coherentes de hasta 90 minutos de duración.

Características de SoulX-Podcast
- Generación de diálogos con varios interlocutores: Produce conversaciones entre varios interlocutores de hasta 90 minutos de duración, con tonos estables y variaciones rítmicas naturales, adecuadas para conversaciones de varias rondas, como los podcasts.
- Soporte multilingüe y dialectalCompatible con mandarín, inglés y varios dialectos chinos (p. ej., sichuan, henan, cantonés, etc.), y con clonación de voz entre dialectos.
- control paralingüísticoLa voz sintetizada puede generar elementos paralingüísticos como risas, suspiros y sonidos respiratorios para aumentar su naturalidad y realismo.
- Coherencia del diálogo a largo plazoGarantizar la coherencia y la continuidad emocional de los diálogos extensos mediante mecanismos de regularización contextual.
- Muestra cero de síntesis de texto a vozLa capacidad de generar un discurso personalizado de alta calidad sin una muestra de la voz del interlocutor.
- Síntesis de voz de alto rendimiento: También rinde bien en tareas tradicionales de síntesis de voz para una sola persona, alcanzando niveles líderes en el sector.
- Código abierto y facilidad de usoCódigo fuente abierto y guías de instalación detalladas para que los desarrolladores puedan utilizarlo y ampliarlo.
Principales ventajas de SoulX-Podcast
- Generación de diálogos con varios interlocutores: Puede generar diálogos naturales y fluidos de varias rondas, adecuados para escenarios con varios interlocutores, como los podcasts.
- Soporte multilingüe y dialectalEs compatible con el mandarín, el inglés y muchos dialectos chinos, y tiene la capacidad de clonar el habla entre dialectos.
- control paralingüístico: Admite la generación de elementos paralingüísticos como risas y suspiros para mejorar la naturalidad del habla.
- Coherencia del diálogo a largo plazoCapacidad para producir hasta 90 minutos de diálogo coherente, manteniendo un cambio constante de tono y ritmo.
- Muestra cero de síntesis de texto a vozEl habla personalizada puede generarse sin necesidad de una muestra de la voz del interlocutor.
- Alto rendimiento y calidad: Excelente rendimiento en tareas tradicionales de síntesis de voz unipersonal, alcanzando niveles líderes en el sector.
¿Cuál es la página web oficial de SoulX-Podcast?
- Página web del proyecto:: https://soul-ailab.github.io/soulx-podcast/
- Repositorio GitHub:: https://github.com/Soul-AILab/SoulX-Podcast
- Biblioteca de modelos HuggingFace:: https://huggingface.co/collections/Soul-AILab/soulx-podcast
- Documento técnico arXiv:: https://arxiv.org/pdf/2510.23541
¿A quién va dirigido SoulX-Podcast?
- Creador de podcasts: Genera contenidos de diálogo multihablante de alta calidad adecuados para la producción de podcasts.
- creador de contenidos: Puede utilizarse para generar contenidos de audio, como relatos sonoros, entrevistas virtuales, etc.
- Asistente virtual de desarrollo: La compatibilidad con varios idiomas y dialectos proporciona una interacción de voz natural y fluida para los asistentes virtuales.
- investigador lingüístico: Admite múltiples lenguas y dialectos y puede utilizarse para proyectos de investigación lingüística y preservación de dialectos.
- educador: Puede utilizarse para crear contenidos de audio educativos que apoyen la enseñanza multilingüe y el aprendizaje de idiomas.
- Profesionales de la industria del entretenimiento: Se puede utilizar para generar la voz de un personaje virtual y es adecuado para juegos, animación y otros campos.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial  Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...





 Español
Español  简体中文
简体中文  English
English  日本語
日本語  한국어
한국어  Русский
Русский