텍스트가 스스로 말하게 하기: 어지러울 정도로 많은 TTS 도구 중에서 선택하는 가장 좋은 방법은 무엇일까요?

66.5K 00

오늘은 점점 더 뜨거워지고 있는 기술인 텍스트 음성 변환, 즉 TTS(Text-to-Speech)에 대해 이야기해 보겠습니다. 간단히 말해, 컴퓨터가 텍스트를 읽어주면 사람이 말하는 것처럼 읽어주는 기술입니다. 지난 몇 년 동안 짧은 동영상 더빙, 오디오북 제작부터 지능형 고객 서비스, 가상 비서에 이르기까지 TTS의 모습은 어디에나 존재합니다. 또한 시장에는 무료, 유료, 오픈 소스, 폐쇄 소스 등 무수히 많은 도구가 있으며, 간단하고 사용하기 쉬운 온라인 서비스도 있고, 특정 기술 임계값이 필요한 개발 라이브러리도 있습니다. 선택지가 너무 많은 상황에서 일반 사용자나 개발자는 자신에게 적합한 도구를 어떻게 선택해야 할까요?

오늘은 시중에서 가장 인기 있고 대표적인 TTS 도구 몇 가지를 살펴보고 각 도구의 기능과 사용처에 대해 알아보겠습니다.

사용하기 쉬운, 즉시 사용 가능한 유형

코드를 작성하고 싶지 않고 음성만 빠르게 생성하고 싶은 사용자에게는 여러 온라인 서비스와 패키지 툴을 선호합니다.

TTS 메이커무료(상용) 온라인 도구입니다. 50개 이상의 방대한 언어를 지원하며 북동부 및 광동어와 같은 방언과 다양한 톤을 선택할 수 있다는 것이 장점입니다. 짧은 동영상, 팟캐스트를 제작하는 크리에이터나 다국어 콘텐츠가 필요한 크리에이터에게 좋은 출발점이 될 수 있습니다. 그러나 이 도구의 구체적인 기술 모델이 명확하게 설명되어 있지 않으며, 보다 전문적인 도구만큼 자연스럽고 제어 가능한 사운드가 아닐 수도 있습니다.
Edge-TTS: 독립형 서비스는 아니지만, 누군가 Microsoft의 Edge 브라우저에 내장된 TTS 기능을 파이썬 라이브러리로 캡슐화했습니다. 좋은 점은 통화하기 쉽고 무료이며 음질이 꽤 좋다는 것인데, 결국 Microsoft의 기술력이 뒷받침되어 있기 때문입니다. 또한 지원되는 언어와 톤도 많습니다(40개 이상의 언어, 300개 이상의 톤). 단점은 Microsoft의 인터페이스에 의존하고, 안정성과 장기적인 가용성이 변동될 수 있으며, 사용자 지정 기능이 제한적이라는 점입니다. 빠른 통합을 위한 경량 애플리케이션이나 개인 프로젝트에 적합합니다.

거대 기업 및 전문가급 서비스

최고 수준의 음성 품질, 높은 수준의 안정성, 다양한 사용자 지정 옵션이 필요하다면 일반적으로 상용 서비스가 더 나은 선택이지만, 물론 이 경우에도 일반적으로 비용을 지불해야 합니다.

Microsoft Azure TTS업계에서 인정받는 벤치마크 중 하나입니다. 신경망 기술을 기반으로 합성된 음성은 매우 자연스럽고 부드러워서 거의 엉망이 될 수 있습니다. 풍부한 감정 제어 옵션과 SSML(음성 합성 마크업 언어)을 통해 발음, 말 속도, 일시 정지 등을 미세 조정할 수 있는 기능을 제공합니다. 140개 이상의 언어와 400개 이상의 톤을 지원하므로 엔터프라이즈 애플리케이션, 고품질 오디오북, 전문 가상 비서를 위한 최고의 선택입니다. 물론 가격도 엔터프라이즈급입니다.
Seed-TTSByteDance에서 개발한 기술이며, 현재로서는 핵심 모델을 완전히 오픈소스화하지 않은 것으로 보입니다. 기술 보고서를 보면 음성 콘텐츠 편집과 말하기 속도 미세 제어가 가능한 것이 특징으로, 음성 콘텐츠의 미세 조정이 필요한 오디오북이나 시나리오의 후반 작업에 매우 적합할 것으로 보입니다. 현재 중국어 전용으로 출시되어 있으며, 구체적인 제품 형태와 정식 후속 버전에 대한 액세스는 추후 공개될 예정입니다.
음성 엔진(OpenAI에서 제공?)원래 기사에는 이 이름이 언급되어 있지만 OpenAI가 이 시스템의 이름을 공식적으로 공개하지는 않은 것으로 보입니다. Voice Engine 시장에 OpenAI 기술(예: GPT)을 기반으로 한 타사 구현이 있거나 내부 연구 프로젝트를 참조할 수 있습니다. 시장에 OpenAI의 기술(예: GPT)을 기반으로 하는 타사 구현이 있거나 내부 연구 프로젝트를 참조할 수 있습니다.OpenAI는 음성 기술에 강하고 음성 복제 및 생성 기능으로 많은 주목을 받았지만 아직 명시적으로 다음과 같은 서비스는 없습니다. Voice Engine 공개 제품은 누구나 직접 사용할 수 있으며, 사용 시 정보 출처에 대한 검열이 필요합니다.

오픈 소스 커뮤니티의 힘: 자유와 커스터마이징

개발자와 연구자에게 오픈 소스 TTS 도구는 더 큰 자유와 커스터마이징의 여지를 제공합니다. 모델 원리를 자세히 살펴보고 필요에 따라 수정하고 훈련할 수 있습니다.

패들스피치: 중국어 지원에 특별히 최적화된 바이두 플라잉 패들의 오픈 소스 프로젝트입니다. 하이라이트 중 하나는 스트리밍 합성을 지원하여 재생 중에 생성 할 수 있고 지연 시간이 짧으며 실시간 음성 방송, 지능형 고객 서비스와 같은 장면에 대한 실시간 응답 요구에 매우 적합하다는 것을 의미합니다. 그것은 다음을 기반으로합니다. FastSpeech2 노래로 응답 HiFiGAN 및 기타 주류 모델.
코퀴 TTS이전에는 Mozilla TTS로 알려진 매우 활발한 오픈 소스 프로젝트로, 가장 큰 장점은 1100개 이상의 언어를 지원하는 사전 학습된 모델의 대규모 라이브러리(XTTS 모델 기준)로, 여러 언어, 특히 리소스가 적은 언어를 처리해야 하는 애플리케이션에 매우 유용하다는 점입니다. 커뮤니티가 활발하고 잘 문서화되어 있습니다.
Bark: 작성자 Suno AI (음악 생성으로 유명한)이 개발되었으며, 음성뿐만 아니라 음악 클립, 배경 소음, 웃음, 울음소리 등 비음성 소리도 생성하고 여러 언어의 믹싱을 지원한다는 점이 더욱 특별합니다. 따라서 창의적인 오디오 프로젝트, 게임 사운드 디자인 및 기타 영역에서 사용할 수 있는 독특한 잠재력을 제공합니다. 기반은 다음과 같습니다. 트랜스포머 아키텍처.
텐서플로TTS이름에서 알 수 있듯이 텐서플로우 기반의 TTS 도구 세트입니다. 다음과 같이 널리 사용되는 다양한 TTS 모델을 지원합니다. Tacotron 2및FastSpeech2 등과 함께 MelGAN 및 보코더를 사용할 수 있습니다. 이는 모델 실험과 사용자 지정 개발을 용이하게 하기 위해 텐서플로 생태계에 익숙한 개발자와 학술 연구를 수행하는 개발자에게 유용한 옵션입니다.
물고기 말하기한 문장에서 중국어, 영어, 일본어를 자연스럽게 전환하는 등 다국어 혼합 생성에 중점을 둔 프로젝트입니다. 다음을 지원합니다. VITS2및Bert-VITS2 및 기타 최신 모델 아키텍처를 지원합니다. 다국어 팟캐스트, 영화 및 TV 더빙 등의 시나리오를 제작할 때 유용합니다.
ChatTTS: 대화 시나리오에 특별히 최적화된 오픈 소스 모델입니다. 영어와 중국어 대화 모두에서 잘 작동하며 자연스러운 감정적 특징(예: 웃음, 망설임, 어조 멈춤)이 있는 음성을 생성하여 합성된 대화가 더욱 사실적이고 상호 작용하는 것처럼 들립니다. 40,000시간의 데이터로 사전 학습되었다고 합니다.

음성 복제: 나만의 목소리 만들기

음성 복제 기술을 사용하면 소량(때로는 단 몇 초 또는 1분)의 목소리 샘플을 사용하여 해당 사람의 목소리로 말하는 음성을 합성할 수 있습니다. 이 기술은 흥미롭지만 윤리적 위험이 있으므로 사용 시 법률, 규정 및 윤리를 준수하는 것이 중요합니다.

GPT-SoVITS다음과 같은 조합입니다. SoVITS (노래 합성 및 음성 변환에 널리 사용되는 모델) 및 GPT 오픈소스 프로젝트입니다. 1분 분량의 음성으로 좋은 복제 효과를 얻을 수 있다고 주장하며 중국어 방언도 일부 지원합니다. 현재 커뮤니티에서 매우 인기있는 음성 복제 솔루션 중 하나입니다.
OpenVoice: 작성자 MyShell.ai 음성을 복제할 뿐만 아니라 감정, 억양, 억양을 조정하는 등 복제된 음성을 세밀하게 제어할 수 있는 오픈 소스입니다. 따라서 광고 더빙이나 다국어 가상 비서 등 개인화 및 표현력이 필요한 시나리오에서 유용하게 사용할 수 있습니다.
실시간 음성 복제이 프로젝트는 기술 전문가가 아닌 사용자도 비교적 쉽게 음성 복제 실험을 수행할 수 있는 그래픽 사용자 인터페이스(GUI)를 제공합니다. 이 프로젝트는 SV2TTS 모델은 최신 모델만큼 잘 작동하지 않을 수 있지만 사용 편의성은 뛰어납니다.
F5-TTS이 프로젝트는 제로 샷 음성 복제를 위한 확산 트랜스포머(DiT) 기술을 도입하여 대상 화자의 음성 데이터 없이도 어느 정도의 음성 모방이나 변환을 수행하고 감정 제어를 지원할 수 있습니다. 이는 비교적 새로운 연구 방향입니다.
모킹버드: 초기에 많은 관심을 끌었던 오픈 소스 음성 복제 프로젝트이기도 합니다. 기술적으로는 최신 프로그램에 밀려났지만 음성 복제 기술의 발전을 이해하는 데는 여전히 유익한 자료입니다.

기타 관심 도구

또한 각각 고유한 도구가 여러 개 있습니다:

VoiceVox주로 일본어에 적합하며, 특히 보조 및 애니메이션 스타일의 톤을 생성하는 데 적합합니다. 일본 브이튜버 및 크리에이티브 커뮤니티에서 매우 인기가 있습니다.
EmotiVoice감정 음성 합성에 중점을 둔 넷이즈유다오 오픈소스는 행복, 분노, 슬픔, 기쁨 등 다양한 감정을 담은 음성을 생성할 수 있습니다.
메타보이스-1B1B(10억) 매개변수가 있는 오픈 소스 모델은 일반적으로 더 큰 표현력과 더 높은 음성 품질을 의미하지만, 더 많은 계산 리소스를 필요로 합니다.
So-VITS-SVC주로 다른 사람의 목소리로 노래를 부를 수 있는 노래 음성 변환에 사용됩니다. SoVITS 기술의 중요한 분야입니다.

어떻게 선택하나요?

이 글을 다 읽고 나면 더 혼란스러울 수도 있습니다. 걱정하지 마세요. 선택에 대한 간단한 아이디어를 알려드리겠습니다:

일반 사용자, 빠른 음성: 사용해 보세요. TTS Maker 또는 무엇을 기반으로 하는지 알아보세요. Edge-TTS 온라인 도구의 수입니다.
애플리케이션에 통합될 개발자:
- 예산 내에서 높은 품질과 일관성을 유지하세요. Microsoft Azure TTS.
- 중국어 최적화와 짧은 지연 시간이 필요합니다. PaddleSpeech.
- 가장 광범위한 언어 지원이 필요합니다. Coqui TTS.
- 사운드 + 사운드스케이프 아이디어로 놀고 싶어요. Bark.
- 친숙함 TensorFlow 생태학. TensorFlowTTS.
- 다국어 믹싱을 처리해야 합니다. Fish Speech.
- 대화 시나리오에 집중하세요. ChatTTS.
음성 복제를 하고 싶습니다.:
- 결과 및 커뮤니티 열기 추구 GPT-SoVITS 어쩌면 OpenVoice.
- 간단하게 사용해 볼 수 있는 GUI가 필요합니다. Real-Time-Voice-Cloning.
- 최첨단 기술에 집중하세요. F5-TTS.
특정 요구 사항:
- 일본어 보조 음성. VoiceVox.
- 풍부한 감정 표현. EmotiVoice.