"원클릭 복제: 새로 출시된 GPT-SoVITS V2를 사용하면 목소리를 자유롭게 날릴 수 있습니다!

AI 뉴스12개월 전 업데이트 AI 공유 서클
9.8K 00

인공지능 기술의 급속한 발전과 함께 음성 복제 기술도 새로운 돌파구를 열었습니다. RVC 음성 체인저 '꽃은 울지 않는다'의 창시자이자 AI 톤 변환 기술인 소비츠의 개발사인 알셀이 공동 개발한 2세대 GPT-SoVITS가 공식 출시되었습니다. 이 고급 음성 복제 및 음성 합성 도구는 작업 프로세스를 단순화할 뿐만 아니라 매우 적은 수의 음성 샘플로 사실적인 목소리를 빠르게 복제할 수 있습니다.

핵심 강점:

  1. 고품질 사운드 복제2세대 GPT-SoVITS는 저음질 오디오를 처리할 때 더욱 자연스럽고 부드러운 사운드를 생성합니다.
  2. 다국어 지원중국어, 영어, 일본어, 한국어, 광동어의 다국어 다중 감정 합성을 지원합니다.
  3. 제로 샘플 TTS 및 소수 샷 TTS하단 모드 트레이닝 세트가 5,000시간으로 확장되어 제로 샘플 성능이 크게 향상되었으며, 더 사실적인 톤과 더 적은 데이터 세트가 필요해졌습니다.
  4. 통합 도구보컬 반주 분리, 음성 슬라이싱, 노이즈 감소, 중국어 ASR, 텍스트 주석 등 UVR5와 같은 도구를 통합하여 학습 데이터 세트와 모델을 만드는 과정을 간소화할 수 있습니다.
  5. 최적화된 텍스트 프런트엔드2세대 중국어와 영어는 다의성 최적화를 통합하여 텍스트 처리 정확도를 향상시킵니다.

마지막 업데이트:

  1. 향상된 음성 합성 품질V2 버전은 저음질 레퍼런스 오디오(특히 고주파가 심하게 누락되고 소리가 뭉개지는 웹 소스 오디오)를 최적화하여 더 나은 음질을 생성합니다.
  2. 확장된 교육 세트훈련 세트가 5000시간으로 확장되어 제로 샘플 성능이 향상되어 더욱 사실적인 톤을 구현합니다.
  3. 언어 지원 추가이제 중국어, 일본어, 영어, 한국어, 광동어 등 5개 언어 간의 언어 간 합성이 지원됩니다.
  4. 텍스트 프런트 엔드 개선지속적인 반복 업데이트를 통해 V2 버전은 텍스트 처리의 정확성을 향상시키기 위해 영어 다의성 최적화를 추가했습니다.
  5. 새로운 기능음성 속도 조정 및 참조 텍스트 없음 모드를 추가하여 더 나은 혼합 언어 슬라이싱을 제공합니다.

애플리케이션 시나리오:

  • 개인화된 음성 어시스턴트지능형 어시스턴트 또는 챗봇을 위한 개인화된 음성을 생성하여 사용자 경험을 향상하세요.
  • 가상 캐릭터 더빙(VCD)게임, 애니메이션 또는 가상 현실에서 가상 캐릭터에 사실적인 음성을 제공합니다.
  • 오디오북 제작텍스트 콘텐츠를 음성으로 변환하여 고품질 오디오북을 제작할 수 있습니다.
  • 접근성시각 장애인 또는 난독증 환자를 위한 텍스트 음성 변환 서비스로 정보에 더 쉽게 접근할 수 있도록 도와줍니다.
  • 음성 엔터테인먼트스푸핑 오디오를 제작하고 유명인의 목소리를 흉내 내는 등 다양한 엔터테인먼트 경험을 제공합니다.
  • 음성 개인 정보 보호사용자의 개인 정보를 보호하기 위해 음성 톤을 변경합니다.
  • 음성 지원청각 장애인이 음성을 더 잘 인식하고 이해할 수 있도록 도와주는 음성 지원입니다.

Windows 로컬 배포 원클릭 통합 팩:

사용의 문턱을 낮추기 위해 F5 AI 커뮤니티는 사용자가 복잡한 환경 구성 없이도 빠르게 시작할 수 있도록 2세대 GPT-SoVITS 로컬 원클릭 통합 패키지 배포를 출시했습니다. 패키지를 다운로드하고 압축을 풀면 복잡한 환경 구성 없이도 고품질 오디오를 빠르게 생성하는 데 사용할 수 있습니다.

2세대 GPT-SoVITS의 출시는 사운드 복제 기술의 또 다른 도약을 의미합니다. 개인 사용자와 기업 모두 이 기술을 활용하여 더욱 편리하고 효율적인 사운드 합성 서비스를 경험할 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...