Kokoro: 자연스럽고 부드러운 음성을 생성하는 효율적인 음성 합성 모델

69.1K 00

일반 소개

Kokoro 82M은 더 적은 파라미터와 더 적은 데이터로 고품질 음성을 생성하도록 설계된 Hugging Face에서 제공하는 매우 효율적인 음성 합성 모델입니다. 이 모델은 8,200만 개의 파라미터를 가지고 있으며 Apache 2.0 라이선스에 따라 출시되었으며 다양한 스타일과 언어로 음성을 생성하기 위해 여러 보이스팩을 지원합니다. kokoro-82M은 TTS(텍스트 음성 변환) 영역, 특히 Elo 순위에서 우수한 성능을 발휘하며 다음과 같은 성과를 달성할 수 있습니다. Kokoro-82M은 TTS(텍스트 음성 변환), 특히 Elo 순위에서 좋은 성능을 보이며 적은 컴퓨팅 리소스로 고품질의 음성 합성을 달성할 수 있습니다.

코코로 래핑 API:Kokoro TTS API: 빠른 텍스트 음성 변환을 위한 도커화된 FastAPI 래퍼(Kokoro-82M 모델)

체험: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

기능 목록

음성 합성자연스럽고 부드러운 음성 출력을 생성합니다.
다중 음성 팩 지원다양한 음성 팩을 사용할 수 있으며 사용자는 다양한 음성 스타일 중에서 선택할 수 있습니다.
효율적인 모델링더 적은 매개 변수와 데이터를 사용하여 고품질의 음성 합성을 제공합니다.
오픈 소스 라이선스: 자유로운 사용과 수정이 허용되는 Apache 2.0 라이선스에 따릅니다.
커뮤니티 지원사용자가 커뮤니티에서 토론하고 피드백을 제공할 수 있는 Discord 서버를 사용할 수 있습니다.

도움말 사용

설치 프로세스

종속성 설치::

   git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch

모델 빌드 및 기본 음성 팩 로드::

   from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af'  # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')

음성 생성::

   from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))

사용 지침

음성 팩 선택코코로-82M은 사용자가 필요에 따라 다양한 음성 스타일을 선택할 수 있는 다양한 음성 팩을 제공합니다. 기본 음성 팩은 다음과 같습니다. af이 작업은 voices 폴더에서 다른 음성 팩을 찾습니다.
음성 생성사용 generate 함수는 텍스트를 입력하면 음성을 생성합니다. 생성된 음성은 24kHz이며 IPython 디스플레이를 통해 재생할 수 있습니다.
조정 매개변수사용자는 필요에 따라 모델 파라미터와 음성 패키지를 조정하여 최상의 음성 합성 결과를 얻을 수 있습니다.