SoulX-Podcast - Modelo de síntesis de voz conversacional de código abierto de Soul AI Lab

堆友AI

Qué es SoulX-Podcast

SoulX-Podcast es el modelo avanzado de síntesis de voz conversacional multihablante de código abierto de Soul AI Lab diseñado para generar contenidos de podcast de alta calidad. Es capaz de generar múltiples rondas de diálogos, simulando conversaciones fluidas en escenarios reales de podcasting, y es compatible con mandarín, inglés y múltiples dialectos chinos, como el sichuanés, el henanés y el cantonés. Admite la clonación del habla sin muestras entre dialectos, y puede generar diferentes voces dialectales a partir de una única señal de audio. El modelo incorpora una función de control paralingüístico, que puede generar elementos no verbales como risas y suspiros para realzar la naturalidad del habla. En la generación de diálogos de formato largo, SoulX-Podcast mantiene un timbre estable y cambios rítmicos naturales para producir diálogos coherentes de hasta 90 minutos de duración.

SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

Características de SoulX-Podcast

  • Generación de diálogos con varios interlocutores: Produce conversaciones entre varios interlocutores de hasta 90 minutos de duración, con tonos estables y variaciones rítmicas naturales, adecuadas para conversaciones de varias rondas, como los podcasts.
  • Soporte multilingüe y dialectalCompatible con mandarín, inglés y varios dialectos chinos (p. ej., sichuan, henan, cantonés, etc.), y con clonación de voz entre dialectos.
  • control paralingüísticoLa voz sintetizada puede generar elementos paralingüísticos como risas, suspiros y sonidos respiratorios para aumentar su naturalidad y realismo.
  • Coherencia del diálogo a largo plazoGarantizar la coherencia y la continuidad emocional de los diálogos extensos mediante mecanismos de regularización contextual.
  • Muestra cero de síntesis de texto a vozLa capacidad de generar un discurso personalizado de alta calidad sin una muestra de la voz del interlocutor.
  • Síntesis de voz de alto rendimiento: También rinde bien en tareas tradicionales de síntesis de voz para una sola persona, alcanzando niveles líderes en el sector.
  • Código abierto y facilidad de usoCódigo fuente abierto y guías de instalación detalladas para que los desarrolladores puedan utilizarlo y ampliarlo.

Principales ventajas de SoulX-Podcast

  • Generación de diálogos con varios interlocutores: Puede generar diálogos naturales y fluidos de varias rondas, adecuados para escenarios con varios interlocutores, como los podcasts.
  • Soporte multilingüe y dialectalEs compatible con el mandarín, el inglés y muchos dialectos chinos, y tiene la capacidad de clonar el habla entre dialectos.
  • control paralingüístico: Admite la generación de elementos paralingüísticos como risas y suspiros para mejorar la naturalidad del habla.
  • Coherencia del diálogo a largo plazoCapacidad para producir hasta 90 minutos de diálogo coherente, manteniendo un cambio constante de tono y ritmo.
  • Muestra cero de síntesis de texto a vozEl habla personalizada puede generarse sin necesidad de una muestra de la voz del interlocutor.
  • Alto rendimiento y calidad: Excelente rendimiento en tareas tradicionales de síntesis de voz unipersonal, alcanzando niveles líderes en el sector.

¿Cuál es la página web oficial de SoulX-Podcast?

  • Página web del proyecto:: https://soul-ailab.github.io/soulx-podcast/
  • Repositorio GitHub:: https://github.com/Soul-AILab/SoulX-Podcast
  • Biblioteca de modelos HuggingFace:: https://huggingface.co/collections/Soul-AILab/soulx-podcast
  • Documento técnico arXiv:: https://arxiv.org/pdf/2510.23541

¿A quién va dirigido SoulX-Podcast?

  • Creador de podcasts: Genera contenidos de diálogo multihablante de alta calidad adecuados para la producción de podcasts.
  • creador de contenidos: Puede utilizarse para generar contenidos de audio, como relatos sonoros, entrevistas virtuales, etc.
  • Asistente virtual de desarrollo: La compatibilidad con varios idiomas y dialectos proporciona una interacción de voz natural y fluida para los asistentes virtuales.
  • investigador lingüístico: Admite múltiples lenguas y dialectos y puede utilizarse para proyectos de investigación lingüística y preservación de dialectos.
  • educador: Puede utilizarse para crear contenidos de audio educativos que apoyen la enseñanza multilingüe y el aprendizaje de idiomas.
  • Profesionales de la industria del entretenimiento: Se puede utilizar para generar la voz de un personaje virtual y es adecuado para juegos, animación y otros campos.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...