여러 고급 음성 합성 서비스를 통합하는 오픈 소스 운영 프로젝트

59.6K 00

일반 소개

오픈 보이스 캔버스는 ItusiAI 팀에서 개발한 오픈 소스 음성 합성 플랫폼입니다. 50개 이상의 언어를 지원하고, 텍스트를 자연스러운 음성으로 변환하며, 오디오를 업로드하여 개인화된 음성을 복제할 수 있습니다. 이 프로젝트는 OpenAI TTS, AWS Polly, MiniMax 음성 서비스를 통합하고 다양한 음색 옵션과 음성 속도 조절 기능을 제공합니다. 코드 100%는 오픈 소스이며 사용자가 무료로 다운로드하여 수정할 수 있는 GitHub에서 호스팅됩니다. 또한 고급 기능을 쉽게 잠금 해제할 수 있도록 Google 및 GitHub 로그인과 Stripe 결제를 지원합니다. 이 도구는 개발자, 콘텐츠 크리에이터 및 일반 사용자에게 적합합니다.

기능 목록

50개 이상의 언어로 텍스트 음성 변환을 지원합니다.
다양한 음성 서비스 제공: OpenAI TTS(자연스러운 음성), AWS Polly(다국어), MiniMax(중국어 최적화).
음성 속도를 조절할 수 있는 남성 및 여성 음성 선택을 지원합니다.
사운드 복제 기능을 제공하여 사용자가 오디오를 업로드하여 개인화된 톤을 만들 수 있습니다.
텍스트 파일 업로드 및 오디오 파일 다운로드를 지원하고 긴 텍스트를 부담 없이 처리할 수 있습니다.
통합 Google 및 GitHub 로그인, 다국어 인터페이스 및 어두운/밝은 테마를 제공합니다.
무료 평가판, 월별/연간 결제, 볼륨 청구 등의 구독 서비스를 Stripe을 통해 이용할 수 있습니다.

도움말 사용

오픈 보이스 캔버스는 강력한 오픈 소스 도구입니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 설치 및 사용 가이드입니다.

설치 프로세스

환경 준비하기
시작하기 전에 컴퓨터에 다음 도구가 설치되어 있는지 확인하세요:
- Git: 코드 다운로드용.
- Node.js(18.x 이상 권장): 프런트엔드 및 백엔드를 실행합니다.
- npm: Node.js용 패키지 관리 도구.
  설치되어 있는지 확인합니다:

git --version
node --version
npm --version

누락된 경우 공식 웹사이트로 이동하여 다운로드하여 설치할 수 있습니다.

코드 복제
터미널을 열고 다음 명령을 입력하여 프로젝트를 다운로드합니다:

git clone https://github.com/ItusiAI/Open-VoiceCanvas.git

프로젝트 카탈로그로 이동합니다:

cd Open-VoiceCanvas

종속성 설치
다음 명령을 실행하여 필요한 라이브러리를 설치합니다:

npm install

네트워크 속도가 느리면 가정용 미러를 사용하세요:

npm install --registry=https://registry.npmmirror.com

환경 변수 구성
프로젝트 루트 디렉터리에서 .env 파일에 다음 구성을 추가합니다(자신의 키로 대체해야 함):

# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"

이러한 키는 해당 서비스의 공식 웹사이트(예: OpenAI, AWS, MiniMax, Neon, Stripe 및 GitHub/Google OAuth)에서 얻어야 합니다.

데이터베이스 마이그레이션 실행
데이터베이스를 구성하고 실행합니다:

npx prisma migrate dev

이렇게 하면 PostgreSQL 데이터베이스가 초기화됩니다.

트리거 절차
개발 서버를 시작하려면 다음 명령을 입력합니다:

npm run dev

실행 후 브라우저는 http://localhost:3000인터페이스를 볼 수 있습니다.

주요 기능

텍스트 음성 변환

웹 페이지를 열고 로그인한 후 메인 화면으로 이동합니다.
텍스트 입력 상자에 텍스트를 입력합니다(예: "안녕하세요, 수요일입니다").
언어를 선택합니다(예: 중국어, 영어, 일본어 등 50개 이상 지원).
음성 서비스 선택: OpenAI TTS, AWS Polly 또는 MiniMax.
음색을 선택합니다(예: OpenAI의 'nova' 또는 AWS의 'Joanna' 등 남성 또는 여성).
말하기 속도를 조정합니다(0.5~2.0 범위, 1.0이 정상).
'생성'을 클릭하면 몇 초 후에 오디오를 미리 볼 수 있습니다.
MP3 파일로 저장하려면 '다운로드'를 클릭합니다.

사운드 복제

'사운드 복제' 페이지로 이동합니다.
'오디오 업로드'를 클릭하고 선명한 10~20초 분량의 오디오 클립(WAV 또는 MP3 형식)을 선택합니다.
톤의 이름(예: "내 목소리")을 입력합니다.
'복제'를 클릭하고 프로세스가 완료될 때까지 1~2분 정도 기다립니다.
복제에 성공하면 새 톤이 톤 목록에 나타납니다.
텍스트 음성 변환 페이지로 돌아가서 톤 복제를 선택하고 음성을 생성할 텍스트를 입력합니다.

문서 처리

메인 화면에서 '텍스트 파일 업로드'를 클릭합니다.
하나 선택 .txt 파일을 선택하면 콘텐츠가 입력 상자에 자동으로 로드됩니다.
언어, 음색 및 말하기 속도를 설정한 후 오디오를 생성합니다.
긴 텍스트는 자동으로 분할되어 원활하게 생성됩니다.

구독 및 로그인

오른쪽 상단 모서리에 있는 '로그인'을 클릭하고 Google 또는 GitHub 계정 인증을 선택합니다.
캐릭터 할당량과 클론 수를 보려면 로그인하세요.
'구독'을 클릭하고 무료 평가판, 월간(월별 요금제) 또는 연간(연간 요금제) 요금제를 선택합니다.
Stripe를 통해 결제 정보를 입력하고 구독을 완료하면 더 많은 기능을 잠금 해제할 수 있습니다.

주의

오디오 요구 사항복제에 사용되는 오디오는 선명하고 배경 소음이 없어야 합니다.
키 보안: 알려주지 마세요. .env 키를 입력합니다.
네트워크 요구 사항네트워크의 안정성을 유지하려면 처음 실행할 때 모델을 다운로드해야 합니다.
기술 지원문제가 발생하면 GitHub에 이슈를 제출할 수 있습니다.

이러한 단계를 통해 Open-VoiceCanvas의 기능을 최대한 활용할 수 있습니다. 오픈 소스 디자인은 새로운 음성 서비스를 추가하거나 인터페이스를 조정하는 등 개발자의 커스터마이징도 지원합니다.

애플리케이션 시나리오

콘텐츠 제작
앵커는 이 기능을 사용하여 다국어 내레이션을 생성하고 녹음 시간을 절약할 수 있습니다.
시나리오 설명: 한 유튜버가 중국어와 영어로 동영상 해설을 생성하고 편집을 위해 오디오를 직접 다운로드합니다.
교육 지원
교사는 교과서를 음성으로 변환하여 교육용 오디오를 제작합니다.
시나리오 설명: 영어 교사가 텍스트를 업로드하고 학생들이 듣기 연습을 할 수 있도록 미국식 발음 오디오를 생성합니다.
맞춤형 애플리케이션
개발자는 자신의 목소리를 복제하여 고유한 음성 어시스턴트를 만들 수 있습니다.
시나리오 설명: 프로그래머가 음성을 복제하여 스마트 홈 시스템에 통합하여 자신의 목소리로 날씨를 방송합니다.
레크리에이션용
사용자는 재미있는 음성을 생성하여 친구들과 공유할 수 있습니다.
시나리오: 누군가가 친구의 목소리로 "생일 축하" 오디오를 깜짝 선물로 생성합니다.

QA

어떤 음성 서비스가 지원되나요?
OpenAI TTS(자연어 음성), AWS Polly(다국어) 및 MiniMax(중국어 최적화)를 지원합니다.
음성을 복제하려면 무엇이 필요하나요?
배경 소음이 최대한 적은 WAV 또는 MP3 형식의 10~20초 분량의 선명한 오디오가 필요합니다.
무료 버전과 유료 버전의 차이점은 무엇인가요?
무료 버전은 문자 수와 복제 수에 제한이 있으며, 유료 버전은 더 많은 쿼터와 톤 옵션을 제공합니다.
시작 실패를 해결하려면 어떻게 하나요?
환경 변수가 올바르게 구성되고 종속성이 완전히 설치되었는지 Node.js 버전(18.x 권장)을 확인합니다.