DiaMoE-TTS - 칭화 및 거대 네트워크 오픈 소스 다중 방언 음성 합성 프레임워크

37.4K 00

DiaMoE-TTS란 무엇인가요?

DiaMoE-TTS는 방언 데이터 부족, 직교 불일치, 복잡한 음운 변화 문제를 해결하기 위해 국제 음성 알파벳(IPA)을 기반으로 칭화대학교와 자이언트 네트워크가 공동으로 오픈소스화한 다중 방언 음성 합성 프레임워크입니다. 통합된 IPA 프런트엔드 표준화된 음소 표현을 통해 방언 간 차이를 제거하고, 방언 인식 전문가 혼합(MoE) 아키텍처를 채택하여 서로 다른 전문가 네트워크가 각 방언의 고유한 음색과 리듬을 보존하면서 서로 다른 방언의 특징을 학습하는 데 집중할 수 있도록 합니다. 이 프레임워크는 다음을 기반으로 합니다. F5-TTS 로우랭크 어댑터(LoRA)와 조건부 어댑터를 도입하여 매개변수 효율적인 방언 마이그레이션을 달성하고, 소수의 매개변수만 미세 조정하면 방언 확장을 완료할 수 있도록 구성되었습니다. 이 훈련은 전적으로 오픈 소스 데이터를 기반으로 하므로 값비싼 수동 라벨링 음성이 필요하지 않으며 기술적 문턱이 낮습니다. 실험에 따르면 DiaMoE-TTS는 자연스럽고 표현력이 풍부한 음성을 생성하여 몇 시간의 데이터만으로 보이지 않는 방언과 특수한 도메인(예: 북경 오페라)에 대해 제로 샘플 성능을 달성하며, 11개 방언과 만다린어를 지원하며 유럽 언어까지 확장할 수 있습니다.

DiaMoE-TTS의 기능적 특징

통합 IPA 프론트엔드국제 음성 알파벳(IPA)을 입력 시스템으로 채택하여 확장성이 뛰어난 음소 인벤토리 구축, 여러 방언 및 언어에 대한 음소 주석 지원, 방언 간 차이 제거, 모델링 일관성 및 일반화 기능 보장 등 다양한 기능을 제공합니다.
방언 인식 MoE 아키텍처방언 인식을 위한 전문가 혼합 아키텍처가 도입되어 다양한 전문가 네트워크가 서로 다른 방언의 특징을 학습하는 데 집중하고 동적 게이팅 메커니즘이 각 방언의 고유한 음색과 리듬을 보존하면서 가장 적합한 전문가 경로를 자동으로 선택합니다.
낮은 리소스 방언 적응다음은 리소스가 적은 방언을 빠르게 적응시키는 방법의 예입니다. 효율적인 파라미터 마이그레이션 전략을 채택하면 적은 수의 파라미터만 미세 조정하여 방언을 확장할 수 있으며, 백본은 MoE 모듈로 고정하여 기존 지식을 잊어버리지 않고 유지할 수 있습니다.
다단계 교육 방법이 모델은 IPA 마이그레이션 초기화, 다중 방언 공동 학습, 방언 전문가 향상, 저자원 고속 적응 단계를 포함하여 점진적으로 모델 성능을 개선하고 방언 다양성에 적응하도록 설계되었습니다.
오픈 데이터 드라이브오픈 소스 ASR 데이터로만 학습되어 값비싼 수동 음성 라벨링이 필요 없고, 기술적 문턱이 낮으며, 확장 가능한 오픈 데이터 기반 음성 합성을 지원합니다.
효율적인 일반화 기능이 시스템은 자원이 적은 방언(예: 하카의 경우 91.71 TP3T)에서 높은 발음 정확도를 달성할 수 있으며, 알려지지 않은 방언 및 특수 도메인(예: 베이징 오페라)에 대한 제로 샘플 성능 테스트를 수행할 수 있습니다.
다양한 애플리케이션 시나리오다양한 중국어 방언과 만다린어의 음성 합성을 지원하며 유럽 언어까지 확장할 수 있습니다. 방언 보호, 문화 및 엔터테인먼트 분야에 적용 가능하며 방언의 계승과 문화 산업 발전을 위한 기술 지원을 제공합니다.
완벽한 툴체인오픈 소스 데이터 세트에 대한 교육 및 추론 스크립트, 사전 학습된 모델, IPA 프런트엔드를 제공하여 사용자가 쉽게 시작하고 빠르게 적용하고 연구 개발 프로세스를 가속화할 수 있도록 지원합니다.

DiaMoE-TTS의 핵심 이점

데이터 기반 및 오픈 소스오픈 소스 데이터에 전적으로 기반한 학습은 값비싼 수작업으로 음성을 라벨링할 필요가 없으므로 기술적 한계와 비용을 낮춥니다.
효율적인 일반화 기능저자원 방언에서도 여전히 높은 발음 정확도를 얻을 수 있으며, 보이지 않는 방언과 특수한 도메인(예: 북경 오페라)에 대해 제로 샘플 성능 테스트를 수행할 수 있습니다.
방언 보존 및 확장광범위한 중국어 방언과 만다린어를 지원하며 유럽 언어까지 확장할 수 있어 방언 보존과 언어 다양성을 강력하게 지원합니다.
빠른 적응 및 마이그레이션새로운 방언 확장은 효율적인 매개변수 마이그레이션 전략을 채택하여 이루어지며, 새로운 방언에 빠르게 적응하기 위해 소수의 매개변수만 미세 조정하면 됩니다.
자연스러운 음성 합성생성된 음성은 자연스럽고 표현력이 뛰어나며, 실험 결과 음성 품질과 표현력이 뛰어난 것으로 나타났습니다.

다이아모에-TTS의 공식 웹사이트는 무엇인가요?

GitHub 리포지토리:: https://github.com/GiantAILab/DiaMoE-TTS
허깅페이스 모델 라이브러리:: https://huggingface.co/RICHARD12369/DiaMoE_TTS
arXiv 기술 논문:: https://www.arxiv.org/pdf/2509.22727

DiaMoE-TTS가 표시되는 사람

방언 연구원목적: 중국어 방언 및 기타 언어의 음운 특징과 음운 진화 연구를 위한 효율적인 도구를 제공하고 언어 연구를 지원합니다.
음성 합성 개발자오픈 소스 프레임워크와 사전 학습된 모델이 제공되어 개발자가 다국어 음성 합성 시스템을 빠르게 구축하고 최적화할 수 있습니다.
방언 보존가음성 합성 기술을 통해 멸종 위기에 처한 방언을 녹음하고 전승하여 언어 다양성을 증진하는 방언 보존 프로젝트에 기여하세요.
문화 및 엔터테인먼트 실무자영화, 텔레비전, 방송, 게임 분야에서 지역 특색을 살린 음성 콘텐츠를 제작하고 문화적 표현력을 높이는 데 사용할 수 있습니다.
교육자방언 교육 자료를 개발하여 학생들이 다양한 방언을 배우고 이해하도록 돕고 언어 교육을 촉진하는 데 사용할 수 있습니다.
기술 애호가음성 합성, 인공지능 기술에 관심이 있는 개인은 오픈 소스 코드와 문서를 통해 학습하고 탐구할 수 있습니다.