ZipVoice - Xiaomi의 오픈 소스 음성 합성 모델 제품군

44.9K 00

ZipVoice란?

ZipVoice(제로 샘플 단일 화자 음성 합성 모델)와 ZipVoice-Dialog(제로 샘플 대화 음성 합성 모델)를 포함하여 Xiaomi에서 출시한 Flow Matching 아키텍처 기반의 일련의 음성 합성(TTS) 모델이며, ZipVoice 시리즈 모델은 원래 자동 음성 인식(ASR)을 위해 설계된 Zipformer 아키텍처를 도입하여 경량 모델링 및 추론 가속화를 달성했습니다. ZipVoice 모델 제품군은 원래 자동 음성 인식(ASR)을 위해 설계된 Zipformer 아키텍처를 백본 네트워크로 도입하여 경량 모델링 및 추론 가속화를 달성했습니다. DiT 기반 음성 합성 모델과 비교했을 때 ZipVoice는 비슷한 성능으로 매개변수의 양을 약 63% 줄였으며, 화자 유사도, 단어 오류율, UTMOS와 같은 객관적인 지표와 CMOS, SMOS 등과 같은 주관적인 지표에서 탁월하고 제로 샘플 음성 합성 모델의 SOTA 성능 수준에 도달합니다.

ZipVoice의 특징

가볍고 빠른 속도ZipVoice-Distill: 123M 모델 매개변수만 있는 ZipVoice-Distill은 빠르고 리소스가 제한된 환경에 배포하기에 적합합니다. 증류 버전인 ZipVoice-Distill은 더 빠르지만 약간의 성능 저하가 있지만 여전히 고품질의 출력을 유지합니다.
고품질 음성 복제화자 유사성, 음성 자연스러움 및 명료성이 뛰어나 원 화자와 매우 유사한 음성을 생성하며 다양한 음성 상호 작용 시나리오에 적합합니다.
다국어 지원중국어와 영어를 모두 지원하여 다양한 언어 환경에서 음성 합성의 요구를 충족시킬 수 있습니다.
멀티 모달 음성 생성ZipVoice-Dialog는 2인 대화를 모노로 생성하고, ZipVoice-Dialog-Stereo는 각 화자에게 별도의 채널을 할당하여 스테레오 대화를 생성하여 대화의 자연스러움과 몰입감을 높여줍니다.
오픈 소스 및 사용 편의성모델 파일, 학습 코드 및 추론 코드는 개발자의 2차 개발 및 커스터마이징을 용이하게 하기 위해 완전히 오픈 소스화되어 있습니다. 자세한 설치 및 사용 지침을 제공하여 사용의 문턱을 낮췄습니다.

ZipVoice의 핵심 이점

Zipformer를 기반으로 한 효율적인 모델링원래 자동 음성 인식(ASR)을 위해 설계된 Zipformer 아키텍처가 처음으로 TTS 작업에 도입되어 ZipVoice가 고품질의 음성 합성을 유지하면서 모델 파라미터 수를 획기적으로 줄이고 모델 학습 및 추론의 효율성을 개선할 수 있게 되었습니다.
평균 업샘플링 전략음성 텍스트 정렬의 평균 업 샘플링 방법은 정렬 프로세스를 단순화하고 정렬의 안정성과 수렴 속도를 개선하며 음성의 명료성과 명확성을 효과적으로 향상시키고 합성된 음성이 입력 텍스트의 내용을 보다 정확하게 반영하도록 하는 데 사용됩니다.
스트림 증류 방법스트림 증류 기법은 샘플링 단계를 더욱 줄이고 분류되지 않은 분류기 안내와 관련된 추론 오버헤드를 제거하여 PyTorch 코드 추론을 사용하여 CPU의 단일 스레드에서 모델이 실시간에 가까운 속도(RTF ≈ 1)에 도달할 수 있도록 하여 음성 합성의 실시간 특성을 크게 개선합니다.
작지만 빠른ZipVoice-Distill: 123M 모델 매개변수만 있는 ZipVoice-Distill은 빠르고 리소스가 제한된 환경에 배포하기에 적합합니다. 증류 버전인 ZipVoice-Distill은 더 빠르지만 약간의 성능 저하가 있지만 여전히 고품질의 출력을 유지합니다.
고품질 음성 복제화자 유사성, 음성 자연스러움 및 명료성이 뛰어나며 원 화자와 매우 유사한 음성을 생성할 수 있어 다양한 음성 상호 작용 시나리오에 적합합니다.

ZipVoice의 공식 웹사이트는 무엇인가요?

프로젝트 웹사이트:: https://zipvoice.github.io/
GitHub 리포지토리:: https://github.com/k2-fsa/ZipVoice
허깅페이스 모델 라이브러리:: https://huggingface.co/k2-fsa/ZipVoice
arXiv 기술 논문:: https://arxiv.org/pdf/2506.13053

ZipVoice의 대상

음성 기술 개발자ZipVoice의 오픈 소스 모델 파일, 학습 코드 및 추론 코드는 개발자에게 2차 개발 및 사용자 지정을 위한 풍부한 리소스를 제공하며, 음성 합성 분야에서 혁신과 개발을 원하는 특정 기술 기반을 가진 사람들에게 적합합니다.
인공 지능 연구원집포머 아키텍처 도입, 스트림 증류법 채택 등 음성합성 분야의 혁신적인 모델 사례는 연구자들에게 새로운 연구 아이디어와 실험 플랫폼을 제공하여 음성합성 기술 발전을 촉진하는 데 도움이 됩니다.
지능형 음성 어시스턴트 개발자ZipVoice의 고품질 음성 합성 기능과 다국어 지원은 지능형 음성 어시스턴트에게 보다 자연스럽고 원활한 음성 상호 작용 경험을 제공할 수 있어 다양한 언어의 사용자를 위한 지능형 음성 어시스턴트 애플리케이션을 개발하는 데 적합합니다.
오디오 콘텐츠 제작자ZipVoice는 오디오북, 라디오 드라마 및 기타 오디오 콘텐츠를 위한 고품질 음성을 빠르게 생성하여 크리에이터가 콘텐츠 제작 효율을 높이고 제작 비용을 절감할 수 있도록 도와줍니다.
교육 분야 실무자언어 학습 및 온라인 교육 시나리오에서 ZipVoice는 표준 음성 데모를 생성하여 교육을 지원하고 학생들이 언어 발음과 표현을 더 잘 배울 수 있도록 도와주므로 다국어 교육 지원이 필요한 시나리오에 적합합니다.
엔터프라이즈 애플리케이션 개발자ZipVoice는 가벼운 디자인과 빠른 추론 기능 덕분에 엔터프라이즈 환경에 효율적으로 배포할 수 있으며 고객 서비스 시스템, 스마트 투어 등 음성 합성을 엔터프라이즈 애플리케이션에 통합해야 하는 기업의 사용자 경험을 향상시킬 수 있습니다.