SoulX-Podcast - Soul AI Lab의 오픈 소스 대화형 음성 합성 모델

38.5K 00

SoulX-Podcast란?

SoulX-Podcast는 고품질 팟캐스트 콘텐츠 생성을 위해 설계된 Soul AI Lab의 오픈 소스 고급 다중 화자 대화 음성 합성 모델입니다. 여러 차례의 대화를 생성하여 실제 팟캐스트 시나리오에서 원활한 대화를 시뮬레이션할 수 있으며 중국어, 영어, 사천어, 허난어, 광둥어 등 여러 중국 방언을 지원합니다. 방언 간 제로 샘플 음성 복제를 지원하며 단일 오디오 큐에 따라 다양한 방언 음성을 생성할 수 있습니다. 이 모델에는 웃음이나 한숨과 같은 비언어적 요소를 생성하여 음성의 자연스러움을 향상시킬 수 있는 패럴랙시스틱 제어 기능이 통합되어 있습니다. 긴 형식의 대화를 생성할 때 SoulX-Podcast는 안정적인 음색과 자연스러운 리듬 변화를 유지하여 최대 90분 분량의 일관된 대화를 생성합니다.

SoulX-팟캐스트의 특징

다중 화자 대화 생성안정적인 톤과 자연스러운 리듬 변화로 최대 90분 동안 멀티 화자 대화를 생성하여 팟캐스트와 같은 다자간 대화 시나리오에 적합합니다.
다국어 및 방언 지원중국어, 영어 및 여러 중국 방언(예: 쓰촨성, 허난성, 광동성 등)을 지원하며 방언 간 음성 복제 기능이 있습니다.
준언어적 제어웃음, 한숨, 숨소리와 같은 반언어적 요소를 생성하여 합성 음성의 자연스러움과 사실감을 높일 수 있습니다.
긴 형식의 대화 일관성문맥 규칙화 메커니즘을 통해 긴 형식의 대화에서 일관성과 감정적 연속성을 보장합니다.
제로 샘플 텍스트 음성 합성대상 화자의 음성 샘플 없이 고품질의 개인화된 음성을 생성할 수 있는 기능입니다.
고성능 음성 합성기존의 1인 음성 합성 작업에서도 업계 최고 수준에 도달할 정도로 뛰어난 성능을 발휘합니다.
오픈 소스 및 사용 편의성개발자가 사용하고 확장할 수 있도록 오픈 소스 코드와 자세한 설치 가이드가 제공됩니다.

SoulX-팟캐스트의 핵심 이점

다중 화자 대화 생성팟캐스트와 같은 다중 화자 시나리오에 적합한 자연스럽고 부드러운 다자간 대화를 생성할 수 있습니다.
다국어 및 방언 지원중국어, 영어 및 다양한 중국 방언을 지원하며 방언 간 음성 복제 기능도 갖추고 있습니다.
준언어적 제어웃음, 한숨과 같은 보조 언어 요소 생성을 지원하여 말의 자연스러움을 향상시킵니다.
긴 형식의 대화 일관성톤과 리듬을 일정하게 유지하면서 최대 90분 동안 일관성 있는 대화를 생성할 수 있습니다.
제로 샘플 텍스트 음성 합성대상 화자의 음성 샘플 없이도 개인화된 음성을 생성할 수 있습니다.
높은 성능과 품질기존 1인 음성 합성 작업에서 뛰어난 성능으로 업계 최고 수준에 도달했습니다.

SoulX-Podcast의 공식 웹사이트는 무엇인가요?

프로젝트 웹사이트:: https://soul-ailab.github.io/soulx-podcast/
GitHub 리포지토리:: https://github.com/Soul-AILab/SoulX-Podcast
허깅페이스 모델 라이브러리:: https://huggingface.co/collections/Soul-AILab/soulx-podcast
arXiv 기술 논문:: https://arxiv.org/pdf/2510.23541