OpenAI Edge TTS: OpenAI 형식과 호환되는 Edge TTS를 사용하는 무료 텍스트 음성 변환 API

최신 AI 리소스7개월 전 업데이트 AI 공유 서클
2.2K 00

일반 소개

OpenAI Edge TTS는 Microsoft Edge의 온라인 텍스트 음성 변환 서비스를 사용하여 사용자가 고품질 음성 출력을 생성할 수 있도록 OpenAI 호환 네이티브 TTS(텍스트 음성 변환) API를 제공하는 오픈 소스 프로젝트로, 다양한 음성 옵션과 재생 속도를 지원하며 다양한 오디오 형식을 생성할 수 있습니다. OpenAI Edge TTS는 다양한 음성 옵션과 재생 속도를 지원하며 여러 오디오 포맷을 생성할 수 있습니다. 이 서비스는 빠르고 쉽게 액세스할 수 있도록 Docker 또는 Python을 통해 배포할 수 있습니다.

관련 항목:edge-tts: 텍스트 음성 변환 Python 모듈 | 무료 텍스트 음성 변환 서비스 및Edge TTS Worker: Cloudflare, OpenAI 호환 형식 및 패키지 웹 인터페이스를 사용하여 Microsoft 음성 합성 API 배포하기

OpenAI Edge TTS:利用 Edge TTS 的免费文本转语音API,兼容 OpenAI 格式

 

기능 목록

  • OpenAI 호환 엔드포인트: OpenAI TTS 엔드포인트와 동일한 요청 구조 및 동작을 지원합니다.
  • 다중 음성 지원OpenAI 음성을 Edge TTS에 해당하는 음성으로 매핑.
  • 유연한 오디오 포맷MP3, Opus, AAC, FLAC, WAV, PCM 및 기타 여러 오디오 형식을 지원합니다.
  • 재생 속도 조절 가능재생 속도: 0.25배속에서 4.2배속까지 조절할 수 있습니다.
  • Edge TTS 음성 직접 선택OpenAI 음성 매핑을 사용하거나 Edge TTS 음성을 직접 지정할 수 있습니다.

 

도움말 사용

설치 프로세스

Docker로 배포(권장)

  1. 클론 창고::
   git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
  1. 환경 변수 파일 만들기: 프로젝트의 루트 디렉터리에 생성 .env 파일에 다음 변수가 포함된 파일을 생성합니다:
   API_KEY=your_api_key_here
PORT=5050
DEFAULT_VOICE=en-US-AndrewNeural
DEFAULT_RESPONSE_FORMAT=mp3
DEFAULT_SPEED=1.2
DEFAULT_LANGUAGE=en-US
REQUIRE_API_KEY=True
REMOVE_FILTER=False
EXPAND_API=True
  1. 도커 컴포즈 실행::
   docker compose up --build

백그라운드에서 실행하려면 -d 매개변수:

   docker compose up -d

Python으로 배포하기

  1. 클론 창고::
   git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
  1. 가상 환경 설정::
   python3 -m venv venv
source venv/bin/activate
  1. 종속성 설치::
   pip install -r requirements.txt
  1. 환경 변수 파일 만들기: 프로젝트의 루트 디렉터리에 생성 .env 파일에 위의 변수가 포함된 파일을 생성합니다.
  2. 운영 서버::
   python app/main.py

사용 지침

  1. API 액세스하기배포가 완료되면 서버가 실행됩니다. http://localhost:5050API 엔드포인트는 HTTP 요청을 전송하여 액세스할 수 있습니다. API 엔드포인트는 다음 주소로 HTTP 요청을 전송하여 액세스할 수 있습니다. /v1/audio/speech.
  2. 음성 생성는 다음 주소로 POST 요청을 보냅니다. /v1/audio/speech요청 본문에는 다음과 같은 JSON 데이터가 포함됩니다:
   {
"text": "Hello, world!",
"voice": "en-US-AndrewNeural",
"format": "mp3",
"speed": 1.0
}
  1. 재생 속도 조절하기수정 : 수정 speed 매개 변수의 값은 0.25에서 4.0 사이입니다.
  2. 음성 선택사용 voice 매개 변수는 음성을 지정하며, 지원되는 음성은 다음과 같습니다. alloy, echo, fable, onyx, nova, shimmer
  3. 오디오 형식사용 format 매개 변수는 다음을 지원하는 오디오 형식을 지정합니다. mp3, opus, aac, flac, wav, pcm

이러한 단계를 통해 사용자는 고품질 텍스트 음성 변환 출력을 생성하기 위해 OpenAI Edge TTS 서비스를 쉽게 배포하고 사용할 수 있습니다.

© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...