일반 소개
Parler-TTS는 고품질의 자연스러운 음성을 생성하기 위해 Hugging Face에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델 라이브러리입니다. 이 모델은 입력 텍스트를 기반으로 특정 화자 스타일(예: 성별, 음조, 말하기 스타일 등)의 음성을 생성할 수 있으며, Parler-TTS는 '합성을 통한 고음질 텍스트 음성 변환의 자연어 안내' 논문의 연구 결과를 기반으로 합니다. Parler-TTS는 "합성 주석을 사용한 고충실도 텍스트 음성 변환의 자연어 안내" 논문의 연구 결과를 기반으로 하며, 모든 데이터 세트, 전처리, 학습 코드 및 가중치를 공개하여 커뮤니티에서 개발하고 개선할 수 있는 완전한 오픈 소스입니다.

기능 목록
- 고품질 음성 생성다양한 화자 스타일을 지원하여 자연스럽고 부드러운 음성을 생성합니다.
- 오픈 소스모든 코드와 모델 가중치는 커뮤니티 개발 및 개선을 위해 공개적으로 사용할 수 있습니다.
- 경량 종속성설치 및 사용이 간편하고 종속성이 거의 없습니다.
- 여러 모델 버전매개변수 개수가 다른 모델 버전(예: Parler-TTS Mini 및 Parler-TTS Large)을 사용할 수 있습니다.
- 빠른 생성SDPA 및 플래시 어텐션 2를 지원하여 생성 속도를 최적화했습니다.
- 데이터 세트 및 가중치풍부한 데이터 세트와 사전 학습된 모델 가중치를 제공하여 쉽게 학습하고 미세 조정할 수 있습니다.
도움말 사용
설치 프로세스
- Python 환경이 설치되어 있는지 확인합니다.
- 다음 명령을 사용하여 Parler-TTS 라이브러리를 설치합니다:
pip install git+https://github.com/huggingface/parler-tts.git
- Apple Silicon 사용자의 경우 다음 명령을 실행하여 bfloat16을 지원하세요:
pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu
사용법
무작위 음성 생성
- 필요한 라이브러리를 가져옵니다:
import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf
- 모델 및 스플리터 로드:
device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")
- 텍스트를 입력하고 음성을 생성합니다:
prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch."
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output.wav", outputs.cpu().numpy(), 22050)
특정 화자 스타일로 음성 생성
- 특정 화자의 스타일을 사용하는 설명입니다:
description = "A male speaker with a deep voice and slow pace."
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output_specific.wav", outputs.cpu().numpy(), 22050)
교육 모델
- 데이터 세트를 다운로드하여 준비합니다.
- 모델 트레이닝은 제공된 트레이닝 코드를 사용하여 수행됩니다:
python train.py --dataset_path /path/to/dataset --output_dir /path/to/output
최적화된 추론
- SDPA 및 플래시 주의 2를 사용하여 최적화되었습니다:
model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1", use_flash_attention=True).to(device)
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...