Kokoro TTS API: 빠른 텍스트 음성 변환을 위한 도커화된 FastAPI 래퍼(Kokoro-82M 모델)
일반 소개
Kokoro-FastAPI는 Kokoro-82M 텍스트 음성 변환 모델을 지원하도록 설계된 Docker 기반 FastAPI 패키지입니다. 이 프로젝트는 NVIDIA GPU 가속을 지원하며 대기열 처리 및 자동 접합을 제공하여 원시 텍스트의 음성 출력을 보다 효율적이고 일관성 있게 만듭니다. 이 프로젝트는 깃허브 사용자 remsky가 개발했으며 깃허브에서 공개적으로 사용할 수 있습니다. 사용자는 API 인터페이스를 통해 텍스트 음성 변환을 요청하고 음성 생성이 필요한 다양한 애플리케이션 시나리오에서 고품질의 음성 출력을 얻을 수 있습니다.

기능 목록
- Kokoro-82M 텍스트 음성 변환 모델용 API 패키지 제공
- 음성 생성 효율성 향상을 위한 NVIDIA GPU 가속 지원
- 동시 요청을 지원하는 대기열 처리 기능
- 긴 텍스트의 일관된 음성 출력을 생성하는 자동 스플라이싱 기능
- 도커화된 배포로 설치 및 구성 간소화
- 개발자가 시작할 수 있도록 샘플 코드와 문서를 제공합니다.
도움말 사용
설치 프로세스
- 도커 및 NVIDIA 도커 지원이 설치되어 있는지 확인합니다.
- 코코로-FastAPI 프로젝트 리포지토리를 복제합니다:
git clone https://github.com/remsky/Kokoro-FastAPI.git
- 프로젝트 디렉토리로 이동하여 Docker 이미지를 빌드합니다:
cd Kokoro-FastAPI docker build -t kokoro-fastapi .
- Docker 컨테이너를 시작합니다:
docker run --gpus all -d -p 8000:8000 kokoro-fastapi
API 인터페이스 사용
- API 문서에 액세스하세요:
브라우저를 열고 http://localhost:8000/docs 를 방문하여 API 설명서를 보고 인터페이스를 테스트하세요. - 텍스트 음성 변환 요청을 보냅니다:
POST 요청을 사용하여 다음 주소로 메시지를 보내려면/generate
인터페이스는 예를 들어 텍스트 데이터를 전송합니다:curl -X POST "http://localhost:8000/generate" -H "accept: application/json" -H "Content-Type: application/json" -d '{"text": "你好,世界!"}'
- 음성 출력 가져오기:
요청이 성공하면 생성된 음성 파일의 URL이 반환되고 사용자는 파일을 다운로드하거나 재생할 수 있습니다.
샘플 코드(컴퓨팅)
이 프로젝트는 개발자가 빠르게 시작할 수 있도록 샘플 코드를 제공합니다:
- test_openai_tts.py 예제에서는 API를 사용하여 텍스트 음성 변환 요청을 하는 방법을 보여줍니다.
세부 운영 절차
- 시스템이 하드웨어 및 소프트웨어 요구 사항, 특히 NVIDIA GPU 및 CUDA 드라이버를 충족하는지 확인합니다.
- 설치 절차에 따라 Kokoro-FastAPI 서비스를 설치하고 시작하세요.
- 텍스트 음성 변환 요청을 보내려면 API 설명서 및 샘플 코드를 참조하세요.
- 음성 출력 파일 가져오기 및 후속 처리 및 사용.
위의 단계를 통해 사용자는 Kokoro-FastAPI를 쉽게 배포하고 사용하여 효율적인 텍스트 음성 변환 기능을 달성하고 다양한 애플리케이션 시나리오에 맞는 고품질 음성 생성 서비스를 제공할 수 있습니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...