일반 소개
오픈 보이스 캔버스는 ItusiAI 팀에서 개발한 오픈 소스 음성 합성 플랫폼입니다. 50개 이상의 언어를 지원하고, 텍스트를 자연스러운 음성으로 변환하며, 오디오를 업로드하여 개인화된 음성을 복제할 수 있습니다. 이 프로젝트는 OpenAI TTS, AWS Polly, MiniMax 음성 서비스를 통합하고 다양한 음색 옵션과 음성 속도 조절 기능을 제공합니다. 코드 100%는 오픈 소스이며 사용자가 무료로 다운로드하여 수정할 수 있는 GitHub에서 호스팅됩니다. 또한 고급 기능을 쉽게 잠금 해제할 수 있도록 Google 및 GitHub 로그인과 Stripe 결제를 지원합니다. 이 도구는 개발자, 콘텐츠 크리에이터 및 일반 사용자에게 적합합니다.

기능 목록
- 50개 이상의 언어로 텍스트 음성 변환을 지원합니다.
- 다양한 음성 서비스 제공: OpenAI TTS(자연스러운 음성), AWS Polly(다국어), MiniMax(중국어 최적화).
- 음성 속도를 조절할 수 있는 남성 및 여성 음성 선택을 지원합니다.
- 사운드 복제 기능을 제공하여 사용자가 오디오를 업로드하여 개인화된 톤을 만들 수 있습니다.
- 텍스트 파일 업로드 및 오디오 파일 다운로드를 지원하고 긴 텍스트를 부담 없이 처리할 수 있습니다.
- 통합 Google 및 GitHub 로그인, 다국어 인터페이스 및 어두운/밝은 테마를 제공합니다.
- 무료 평가판, 월별/연간 결제, 볼륨 청구 등의 구독 서비스를 Stripe을 통해 이용할 수 있습니다.
도움말 사용
오픈 보이스 캔버스는 강력한 오픈 소스 도구입니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 설치 및 사용 가이드입니다.
설치 프로세스
- 환경 준비하기
시작하기 전에 컴퓨터에 다음 도구가 설치되어 있는지 확인하세요:- Git: 코드 다운로드용.
- Node.js(18.x 이상 권장): 프런트엔드 및 백엔드를 실행합니다.
- npm: Node.js용 패키지 관리 도구.
설치되어 있는지 확인합니다:
git --version
node --version
npm --version
누락된 경우 공식 웹사이트로 이동하여 다운로드하여 설치할 수 있습니다.
- 코드 복제
터미널을 열고 다음 명령을 입력하여 프로젝트를 다운로드합니다:
git clone https://github.com/ItusiAI/Open-VoiceCanvas.git
프로젝트 카탈로그로 이동합니다:
cd Open-VoiceCanvas
- 종속성 설치
다음 명령을 실행하여 필요한 라이브러리를 설치합니다:
npm install
네트워크 속도가 느리면 가정용 미러를 사용하세요:
npm install --registry=https://registry.npmmirror.com
- 환경 변수 구성
프로젝트 루트 디렉터리에서.env
파일에 다음 구성을 추가합니다(자신의 키로 대체해야 함):
# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"
이러한 키는 해당 서비스의 공식 웹사이트(예: OpenAI, AWS, MiniMax, Neon, Stripe 및 GitHub/Google OAuth)에서 얻어야 합니다.
- 데이터베이스 마이그레이션 실행
데이터베이스를 구성하고 실행합니다:
npx prisma migrate dev
이렇게 하면 PostgreSQL 데이터베이스가 초기화됩니다.
- 트리거 절차
개발 서버를 시작하려면 다음 명령을 입력합니다:
npm run dev
실행 후 브라우저는 http://localhost:3000
인터페이스를 볼 수 있습니다.
주요 기능
텍스트 음성 변환
- 웹 페이지를 열고 로그인한 후 메인 화면으로 이동합니다.
- 텍스트 입력 상자에 텍스트를 입력합니다(예: "안녕하세요, 수요일입니다").
- 언어를 선택합니다(예: 중국어, 영어, 일본어 등 50개 이상 지원).
- 음성 서비스 선택: OpenAI TTS, AWS Polly 또는 MiniMax.
- 음색을 선택합니다(예: OpenAI의 'nova' 또는 AWS의 'Joanna' 등 남성 또는 여성).
- 말하기 속도를 조정합니다(0.5~2.0 범위, 1.0이 정상).
- '생성'을 클릭하면 몇 초 후에 오디오를 미리 볼 수 있습니다.
- MP3 파일로 저장하려면 '다운로드'를 클릭합니다.
사운드 복제
- '사운드 복제' 페이지로 이동합니다.
- '오디오 업로드'를 클릭하고 선명한 10~20초 분량의 오디오 클립(WAV 또는 MP3 형식)을 선택합니다.
- 톤의 이름(예: "내 목소리")을 입력합니다.
- '복제'를 클릭하고 프로세스가 완료될 때까지 1~2분 정도 기다립니다.
- 복제에 성공하면 새 톤이 톤 목록에 나타납니다.
- 텍스트 음성 변환 페이지로 돌아가서 톤 복제를 선택하고 음성을 생성할 텍스트를 입력합니다.
문서 처리
- 메인 화면에서 '텍스트 파일 업로드'를 클릭합니다.
- 하나 선택
.txt
파일을 선택하면 콘텐츠가 입력 상자에 자동으로 로드됩니다. - 언어, 음색 및 말하기 속도를 설정한 후 오디오를 생성합니다.
- 긴 텍스트는 자동으로 분할되어 원활하게 생성됩니다.
구독 및 로그인
- 오른쪽 상단 모서리에 있는 '로그인'을 클릭하고 Google 또는 GitHub 계정 인증을 선택합니다.
- 캐릭터 할당량과 클론 수를 보려면 로그인하세요.
- '구독'을 클릭하고 무료 평가판, 월간(월별 요금제) 또는 연간(연간 요금제) 요금제를 선택합니다.
- Stripe를 통해 결제 정보를 입력하고 구독을 완료하면 더 많은 기능을 잠금 해제할 수 있습니다.
주의
- 오디오 요구 사항복제에 사용되는 오디오는 선명하고 배경 소음이 없어야 합니다.
- 키 보안: 알려주지 마세요.
.env
키를 입력합니다. - 네트워크 요구 사항네트워크의 안정성을 유지하려면 처음 실행할 때 모델을 다운로드해야 합니다.
- 기술 지원문제가 발생하면 GitHub에 이슈를 제출할 수 있습니다.
이러한 단계를 통해 Open-VoiceCanvas의 기능을 최대한 활용할 수 있습니다. 오픈 소스 디자인은 새로운 음성 서비스를 추가하거나 인터페이스를 조정하는 등 개발자의 커스터마이징도 지원합니다.
애플리케이션 시나리오
- 콘텐츠 제작
앵커는 이 기능을 사용하여 다국어 내레이션을 생성하고 녹음 시간을 절약할 수 있습니다.
시나리오 설명: 한 유튜버가 중국어와 영어로 동영상 해설을 생성하고 편집을 위해 오디오를 직접 다운로드합니다. - 교육 지원
교사는 교과서를 음성으로 변환하여 교육용 오디오를 제작합니다.
시나리오 설명: 영어 교사가 텍스트를 업로드하고 학생들이 듣기 연습을 할 수 있도록 미국식 발음 오디오를 생성합니다. - 맞춤형 애플리케이션
개발자는 자신의 목소리를 복제하여 고유한 음성 어시스턴트를 만들 수 있습니다.
시나리오 설명: 프로그래머가 음성을 복제하여 스마트 홈 시스템에 통합하여 자신의 목소리로 날씨를 방송합니다. - 레크리에이션용
사용자는 재미있는 음성을 생성하여 친구들과 공유할 수 있습니다.
시나리오: 누군가가 친구의 목소리로 "생일 축하" 오디오를 깜짝 선물로 생성합니다.
QA
- 어떤 음성 서비스가 지원되나요?
OpenAI TTS(자연어 음성), AWS Polly(다국어) 및 MiniMax(중국어 최적화)를 지원합니다. - 음성을 복제하려면 무엇이 필요하나요?
배경 소음이 최대한 적은 WAV 또는 MP3 형식의 10~20초 분량의 선명한 오디오가 필요합니다. - 무료 버전과 유료 버전의 차이점은 무엇인가요?
무료 버전은 문자 수와 복제 수에 제한이 있으며, 유료 버전은 더 많은 쿼터와 톤 옵션을 제공합니다. - 시작 실패를 해결하려면 어떻게 하나요?
환경 변수가 올바르게 구성되고 종속성이 완전히 설치되었는지 Node.js 버전(18.x 권장)을 확인합니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...