일반 소개
Kokoro 82M은 더 적은 파라미터와 더 적은 데이터로 고품질 음성을 생성하도록 설계된 Hugging Face에서 제공하는 매우 효율적인 음성 합성 모델입니다. 이 모델은 8,200만 개의 파라미터를 가지고 있으며 Apache 2.0 라이선스에 따라 출시되었으며 다양한 스타일과 언어로 음성을 생성하기 위해 여러 보이스팩을 지원합니다. kokoro-82M은 TTS(텍스트 음성 변환) 영역, 특히 Elo 순위에서 우수한 성능을 발휘하며 다음과 같은 성과를 달성할 수 있습니다. Kokoro-82M은 TTS(텍스트 음성 변환), 특히 Elo 순위에서 좋은 성능을 보이며 적은 컴퓨팅 리소스로 고품질의 음성 합성을 달성할 수 있습니다.
코코로 래핑 API:Kokoro TTS API: 빠른 텍스트 음성 변환을 위한 도커화된 FastAPI 래퍼(Kokoro-82M 모델)

체험: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
기능 목록
- 음성 합성자연스럽고 부드러운 음성 출력을 생성합니다.
- 다중 음성 팩 지원다양한 음성 팩을 사용할 수 있으며 사용자는 다양한 음성 스타일 중에서 선택할 수 있습니다.
- 효율적인 모델링더 적은 매개 변수와 데이터를 사용하여 고품질의 음성 합성을 제공합니다.
- 오픈 소스 라이선스: 자유로운 사용과 수정이 허용되는 Apache 2.0 라이선스에 따릅니다.
- 커뮤니티 지원사용자가 커뮤니티에서 토론하고 피드백을 제공할 수 있는 Discord 서버를 사용할 수 있습니다.
도움말 사용
설치 프로세스
- 종속성 설치::
git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch
- 모델 빌드 및 기본 음성 팩 로드::
from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af' # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')
- 음성 생성::
from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))
사용 지침
- 음성 팩 선택코코로-82M은 사용자가 필요에 따라 다양한 음성 스타일을 선택할 수 있는 다양한 음성 팩을 제공합니다. 기본 음성 팩은 다음과 같습니다.
af
이 작업은voices
폴더에서 다른 음성 팩을 찾습니다. - 음성 생성사용
generate
함수는 텍스트를 입력하면 음성을 생성합니다. 생성된 음성은 24kHz이며 IPython 디스플레이를 통해 재생할 수 있습니다. - 조정 매개변수사용자는 필요에 따라 모델 파라미터와 음성 패키지를 조정하여 최상의 음성 합성 결과를 얻을 수 있습니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...