일반 소개
보이스크래프트는 뉴럴 코덱 언어 모델을 기반으로 하는 오픈 소스 음성 편집 및 제로 샘플 음성 합성 툴입니다. 기존 음성 시퀀스에 대한 삽입, 삭제, 교체 작업을 가능하게 하는 혁신적인 코드화된 시퀀스 생성 방법을 사용하여 자연스럽고 일관된 편집 음성을 생성합니다. 또한 VoiceCraft는 제로 샘플 음성 합성을 지원하므로 특정 화자에 대한 추가 미세 조정이 필요하지 않습니다. 이 도구는 여러 음성 처리 작업에서 우수한 성능을 발휘하여 현재 업계의 SOTA 모델보다 훨씬 뛰어난 성능을 발휘합니다.

기능 목록
- 음성 편집: 삽입, 삭제, 교체 작업을 지원하여 자연스럽고 부드러운 편집 음성을 생성합니다.
- 제로 샘플 음성 합성: 추가적인 미세 조정 없이 대상 화자의 음성을 생성합니다.
- 트랜스포머 아키텍처 기반: 인과 관계 마스킹 및 지연 스태킹 기술을 사용하여 생성 품질을 개선합니다.
- 오픈 소스 모델: 허깅페이스와 AI Express에서 무료로 다운로드하여 사용할 수 있습니다.
- 인터랙티브 UI: Gradio 라이브러리와의 통합으로 사용자는 직관적으로 모델을 제어하고 테스트할 수 있습니다.
도움말 사용
설치 프로세스
- 프로젝트 저장소를 로컬 디렉터리에 복제합니다:
git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft
- 시스템에 Docker 및 NVIDIA 컨테이너 툴킷이 설치되어 있는지 확인합니다(Windows 시스템에는 드라이버가 기본 제공됨):
sudo apt-get install -y nvidia-container-toolkit-base
- Docker 이미지를 빌드합니다:
docker build --tag "voicecraft" .
- 기존 컨테이너를 시작하거나 새 컨테이너를 생성하고 모든 GPU를 전달합니다:
./start-jupyter.sh # Linux start-jupyter.bat # Windows
- 브라우저를 열고 단말기에 표시된 URL에 액세스합니다:
docker logs jupyter
- 선택 사항: 다른 터미널에서 컨테이너 내부에 액세스합니다:
docker exec -it jupyter /bin/bash export USER=(your_linux_username_used_above) export HOME=/home/$USER sudo apt-get update
- 그래픽 카드가 컨테이너에 표시되는지 확인합니다:
nvidia-smi
- 브라우저에서 열기
inference_tts.ipynb
셀은 단계별로 실행됩니다.
환경 설정
- 가상 환경을 만들고 활성화합니다:
conda create -n voicecraft python=3.9.16 conda activate voicecraft
- 필요한 종속성을 설치합니다:
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers==0.0.22 pip install torchaudio==2.0.2 torch==2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard==2.16.2 pip install phonemizer==3.2.1 pip install datasets==2.16.0 pip install torchmetrics==0.11.1 pip install huggingface_hub==0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall
추론의 예
- 음성 편집 추론:
python phonemize_encodec_encode_hf.py --dataset_size xs --download_to path/to/store_huggingface_downloads --save_dir path/to/store_extracted_codes_and_phonemes --encodec_model_path path/to/encodec_model --mega_batch_size 120 --batch_size 32 --max_len 30000
- 제로 샘플 음성 합성 추론:
python tts_demo.py -h
Gradio
- Colab에서 실행하세요:
Open in Colab
- 로컬에서 실행:
apt-get install -y espeak espeak-data libespeak1 libespeak-dev apt-get install -y festival* apt-get install -y build-essential apt-get install -y flac libasound2-dev libsndfile1-dev vorbis-tools apt-get install -y libxml2-dev libxslt-dev zlib1g-dev pip install -r gradio_requirements.txt python gradio_app.py
일반적인 문제
- 생성된 음성의 자연스러움을 개선하려면 어떻게 해야 하나요? 입력 텍스트 콘텐츠가 대상 음성 샘플의 스타일 및 컨텍스트와 일치하는지 확인합니다.
- 생성된 음성 파일에 노이즈가 있으면 어떻게 해야 하나요? 더 높은 품질의 음성 샘플을 사용하거나 모델 매개변수를 조정해 보세요.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...