OpenAI.fm: OpenAI의 음성 API를 보여주는 대화형 데모 도구

115.2K 00

일반 소개

openai-fm은 GitHub에서 호스팅되는 오픈 소스 프로젝트로, OpenAI 텍스트 음성 변환(TTS) API의 기능을 시연하는 데 전념하고 있습니다. 이 프로젝트를 통해 개발자는 대화형 웹 애플리케이션을 통해 OpenAI의 음성 생성 기능을 시각적으로 체험할 수 있습니다. 이 프로젝트는 깔끔하고 현대적인 인터페이스를 만들기 위해 TailwindCSS 및 ShadcnUI와 결합된 NextJS 프레임워크를 사용하여 개발되었습니다. 사용자는 텍스트를 입력하고 다양한 음성 및 감정 스타일을 선택하여 고품질 음성 출력을 생성할 수 있습니다. 프로젝트 코드는 MIT 라이선스에 따라 완전히 오픈 소스이며, 개발자는 코드를 복제, 수정 및 기여하는 것이 좋습니다. openai-fm은 개발자가 OpenAI 음성 API를 빠르게 이해하고 테스트하는 데 적합하며, 특히 음성 기능이 필요한 애플리케이션 개발 시나리오에 적합합니다.

데모 주소: https://www.openai.fm/

기능 목록

텍스트 음성 변환: 입력된 텍스트를 자연스럽고 부드러운 음성으로 변환합니다.
여러 음성 옵션: 다양한 시나리오의 요구 사항을 충족하는 여러 음성 옵션을 제공합니다.
감정적 스타일 제어: 친근함, 진지함 등의 감정적인 목소리 톤을 조절할 수 있습니다.
실시간 대화형 프레젠테이션: 웹 인터페이스를 통해 실시간으로 음성을 생성하고 재생합니다.
데이터베이스 공유 기능: 생성된 음성을 저장하고 공유하기 위해 PostgreSQL 데이터베이스에 연결할 수 있도록 지원합니다.
오픈 소스 지원: 전체 소스 코드가 제공되므로 개발자가 기능을 사용자 지정하고 확장할 수 있습니다.

도움말 사용

설치 프로세스

openai-fm을 사용하려면 먼저 프로젝트를 복제하고 환경을 구성해야 합니다. 자세한 단계는 다음과 같습니다:

API 키 가져오기
OpenAI 웹사이트를 방문하여 계정을 등록하거나 로그인합니다. 계정 대시보드에서 API 키 관리 페이지로 이동하여 '새 키 만들기'를 클릭하여 다음을 생성하고 저장합니다. OPENAI_API_KEY이 키는 OpenAI 음성 API를 호출하는 데 사용됩니다. 이 키는 OpenAI의 음성 API를 호출하는 데 사용됩니다. 참고: 이 키는 공개되지 않도록 비밀로 유지해야 합니다.
클론 창고
터미널을 열고 다음 명령을 실행하여 openai-fm 리포지토리를 복제합니다:
```
git clone https://github.com/openai/openai-fm.git
```

프로젝트 카탈로그로 이동합니다:

cd openai-fm

환경 변수 설정
두 가지 방법으로 설정할 수 있습니다. OPENAI_API_KEY::
- 글로벌 설정시스템 환경 변수에 다음을 추가합니다. OPENAI_API_KEY.
  - Linux/MacOS 예제:
```
export OPENAI_API_KEY=<你的API密钥>
```
  - Windows 사용자는 시스템 설정에서 환경 변수를 추가할 수 있습니다.
- 프로젝트 내 설정만들기 .env 문서, 참조 .env.example를 클릭하고 다음을 추가합니다:
```
OPENAI_API_KEY=<你的API密钥>
```
종속성 설치
이 프로젝트는 Node.js와 npm을 사용하여 종속성을 관리합니다. Node.js가 설치되어 있는지 확인하세요(권장 버전 16 이상). 프로젝트 루트 디렉토리에서 실행합니다:
```
npm install
```
그러면 NextJS, TailwindCSS, ShadcnUI 등과 같은 필요한 종속성이 설치됩니다.
(선택 사항) 구성 데이터베이스
공유 기능을 사용해야 하는 경우 PostgreSQL 데이터베이스에 연결해야 합니다. 데이터베이스의 .env 파일을 추가하려면 데이터베이스 연결 정보를 추가하려면 .env.example::
```
POSTGRES_URL="postgresql://用户名:密码@主机:端口/数据库名"
```
PostgreSQL 서비스가 실행 중이고 적절한 데이터베이스가 생성되었는지 확인합니다. 공유 기능을 사용하지 않는 경우에는 이 단계를 건너뛸 수 있습니다.
프로젝트 실행
설치가 완료되면 다음 명령을 실행하여 개발 서버를 시작합니다:
```
npm run dev
```
브라우저를 열고 다음 사이트를 방문하세요. http://localhost:3000openai-fm의 대화형 인터페이스를 볼 수 있습니다.

주요 기능

openai-fm의 핵심은 대화형 텍스트 음성 변환 데모입니다. 그 과정은 다음과 같습니다:

입력 텍스트
웹 인터페이스의 텍스트 상자에 음성으로 변환할 텍스트를 입력합니다. 여러 줄의 텍스트를 지원하므로 긴 대화나 스크립트에 적합합니다. 예시:
```
你好！这是一个测试，展示如何将文本转为自然语音。
```
음성 및 감정 선택
인터페이스에는 사용 가능한 음성 옵션(예: 남성, 여성)과 감정 스타일(예: 친근함, 진지함)을 나열하는 드롭다운 메뉴가 있습니다. 이러한 옵션은 data/voices.json 노래로 응답 data/vibes.json 파일 구성으로 이동합니다. 이를 선택한 후 '생성' 버튼을 클릭하면 시스템이 OpenAI 음성 API를 호출하여 오디오를 생성합니다.
재생 및 다운로드
생성된 오디오는 페이지에서 자동으로 재생됩니다. 오디오 파일을 다운로드할 수도 있으며, 기본적으로 WAV 형식으로 저장되어 프로젝트 디렉토리의 output/ 폴더에 파일 이름이 openaifm_ 시작 및 타임스탬프.
공유 기능
PostgreSQL 데이터베이스가 구성된 경우 생성된 음성을 데이터베이스에 저장하고 공유 링크를 생성할 수 있습니다. '공유' 버튼을 클릭하면 다른 사용자가 음성을 보고 재생할 수 있는 액세스 가능한 URL이 반환됩니다.

개발자 사용자 지정

openai-fm은 오픈 소스 프로젝트이므로 개발자는 필요에 따라 코드를 수정할 수 있습니다. 예를 들어

새 음성 추가사설:: 사설 data/voices.json를 클릭하고 새로운 음성 구성을 추가합니다.
인터페이스 조정NextJS 컴포넌트 수정(예 pages/index.js) 또는 TailwindCSS 스타일.
확장된 기능새로운 API 호출을 추가하거나 다른 서비스를 통합합니다.

코드를 기여하려면 리포지토리를 포크하고 브랜치를 만든 다음 풀 리퀘스트를 제출하고, 커밋하기 전에 프로젝트의 기여 가이드라인을 읽고 코드가 규정을 준수하는지 확인하세요. [](https://github.com/openai/openai-fm)[](https://github.com/fairy-root/ComfyUI-OpenAI-FM)

주의

API 수수료OpenAI 음성 API 사용에는 사용량에 따라 요금이 부과됩니다. OpenAI 대시보드에서 API 할당량을 모니터링하세요.
안전공용 서버에 배포하는 경우 다음을 확인합니다. .env 파일은 API 키 유출을 방지하기 위해 공개되지 않습니다.
커뮤니티 지원문제가 있는 경우 GitHub에 이슈를 제출하면 커뮤니티에서 도움을 받을 수 있습니다.

애플리케이션 시나리오

개발자가 음성 API를 테스트합니다.
개발자는 openai-fm을 사용하여 OpenAI 음성 API의 효과를 빠르게 테스트하고, 다양한 음성 및 감정 스타일의 성능을 검증하고, 애플리케이션 통합 솔루션을 최적화할 수 있습니다.
교육 및 트레이닝 콘텐츠 제작
교사 또는 트레이너는 코스 스크립트를 음성으로 변환하여 온라인 코스 또는 교육용 비디오에 사용할 자연스럽고 부드러운 오디오를 생성할 수 있습니다.
접근성 보조 도구
openai-fm은 시각 장애가 있는 사용자가 텍스트 정보에 액세스할 수 있도록 음성 낭독을 생성합니다.
크리에이티브 콘텐츠 제작
팟캐스트 제작자나 콘텐츠 크리에이터는 openai-fm을 사용하여 개인화된 음성을 생성하고 오디션 샘플을 빠르게 만들 수 있습니다.

QA

openai-fm에 대한 비용을 지불해야 하나요?
프로젝트 자체는 무료이지만 OpenAI 음성 API를 사용하려면 유효한 API 키와 사용량에 따른 요금이 필요합니다. 자세한 가격 정보는 OpenAI 공식 웹사이트에서 확인하는 것이 좋습니다.
새 음성 옵션을 추가하려면 어떻게 하나요?
프로젝트 디렉터리를 편집합니다. data/voices.json 파일을 삭제하여 새 음성 구성을 추가합니다. 서버를 다시 시작하면 새 음성이 드롭다운 메뉴에 나타납니다.
공유 기능에 데이터베이스를 사용해야 하나요?
예, 공유 기능을 사용하려면 PostgreSQL 데이터베이스 지원이 필요합니다. 데이터베이스를 구성하지 않아도 정상적으로 음성을 생성하고 재생할 수 있습니다.
모바일에서 openai-fm을 사용할 수 있나요?
openai-fm의 웹 인터페이스는 반응형 디자인을 지원하며 인터넷 연결이 안정적인 경우 모바일 브라우저에서 액세스할 수 있습니다.