Parler-TTS: 입력 텍스트에서 화자별 텍스트 음성 변환 모델 생성

66.1K 00

일반 소개

Parler-TTS는 고품질의 자연스러운 음성을 생성하기 위해 Hugging Face에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델 라이브러리입니다. 이 모델은 입력 텍스트를 기반으로 특정 화자 스타일(예: 성별, 음조, 말하기 스타일 등)의 음성을 생성할 수 있으며, Parler-TTS는 '합성을 통한 고음질 텍스트 음성 변환의 자연어 안내' 논문의 연구 결과를 기반으로 합니다. Parler-TTS는 "합성 주석을 사용한 고충실도 텍스트 음성 변환의 자연어 안내" 논문의 연구 결과를 기반으로 하며, 모든 데이터 세트, 전처리, 학습 코드 및 가중치를 공개하여 커뮤니티에서 개발하고 개선할 수 있는 완전한 오픈 소스입니다.

기능 목록

고품질 음성 생성다양한 화자 스타일을 지원하여 자연스럽고 부드러운 음성을 생성합니다.
오픈 소스모든 코드와 모델 가중치는 커뮤니티 개발 및 개선을 위해 공개적으로 사용할 수 있습니다.
경량 종속성설치 및 사용이 간편하고 종속성이 거의 없습니다.
여러 모델 버전매개변수 개수가 다른 모델 버전(예: Parler-TTS Mini 및 Parler-TTS Large)을 사용할 수 있습니다.
빠른 생성SDPA 및 플래시 어텐션 2를 지원하여 생성 속도를 최적화했습니다.
데이터 세트 및 가중치풍부한 데이터 세트와 사전 학습된 모델 가중치를 제공하여 쉽게 학습하고 미세 조정할 수 있습니다.

도움말 사용

설치 프로세스

Python 환경이 설치되어 있는지 확인합니다.
다음 명령을 사용하여 Parler-TTS 라이브러리를 설치합니다:

   pip install git+https://github.com/huggingface/parler-tts.git

Apple Silicon 사용자의 경우 다음 명령을 실행하여 bfloat16을 지원하세요:

   pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

사용법

무작위 음성 생성

필요한 라이브러리를 가져옵니다:

   import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

모델 및 스플리터 로드:

   device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")

텍스트를 입력하고 음성을 생성합니다:

   prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch."
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output.wav", outputs.cpu().numpy(), 22050)

특정 화자 스타일로 음성 생성

특정 화자의 스타일을 사용하는 설명입니다:

   description = "A male speaker with a deep voice and slow pace."
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output_specific.wav", outputs.cpu().numpy(), 22050)

교육 모델

데이터 세트를 다운로드하여 준비합니다.
모델 트레이닝은 제공된 트레이닝 코드를 사용하여 수행됩니다:

   python train.py --dataset_path /path/to/dataset --output_dir /path/to/output

최적화된 추론

SDPA 및 플래시 주의 2를 사용하여 최적화되었습니다:

   model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1", use_flash_attention=True).to(device)

Motionvid.ai: 텍스트 또는 스케치가 포함된 프레젠테이션용 애니메이션 동영상을 빠르게 생성합니다.

1 년 전

055.6K

미고 - AI 학술 연구 도우미, 다양한 요구를 충족하는 지능형 Q&A

최신 AI 리소스

10개월 전

044.7K

DeepSeek-OCR - 딥시크릿 오픈 소스 광학 문자 인식 모델

최신 AI 리소스

5개월 전

039.9K

Genspark: Genspark 인텔리전스를 기반으로 한 심층 검색 및 연구 보고서 작성

최신 AI 리소스 # AI 검색 도구 # 심층 연구 보고서 생성

10개월 전

084K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

Parler-TTS: 입력 텍스트에서 화자별 텍스트 음성 변환 모델 생성

일반 소개

기능 목록

도움말 사용

설치 프로세스

사용법

무작위 음성 생성

특정 화자 스타일로 음성 생성

교육 모델

최적화된 추론

OpenAOE: 대규모 모델 그룹 채팅 프레임워크: 여러 개의 대규모 언어 모델과 동시에 채팅하기

추천 Github 우수 오픈소스 다운로드 도구

관련 문서

Motionvid.ai: 텍스트 또는 스케치가 포함된 프레젠테이션용 애니메이션 동영상을 빠르게 생성합니다.

미고 - AI 학술 연구 도우미, 다양한 요구를 충족하는 지능형 Q&A

DeepSeek-OCR - 딥시크릿 오픈 소스 광학 문자 인식 모델

Genspark: Genspark 인텔리전스를 기반으로 한 심층 검색 및 연구 보고서 작성

댓글 없음

최신 컬렉션

최신 기사

Parler-TTS: 입력 텍스트에서 화자별 텍스트 음성 변환 모델 생성

일반 소개

기능 목록

도움말 사용

설치 프로세스

사용법

무작위 음성 생성

특정 화자 스타일로 음성 생성

교육 모델

최적화된 추론

OpenAOE: 대규모 모델 그룹 채팅 프레임워크: 여러 개의 대규모 언어 모델과 동시에 채팅하기

추천 Github 우수 오픈소스 다운로드 도구

관련 문서

Motionvid.ai: 텍스트 또는 스케치가 포함된 프레젠테이션용 애니메이션 동영상을 빠르게 생성합니다.

미고 - AI 학술 연구 도우미, 다양한 요구를 충족하는 지능형 Q&A

DeepSeek-OCR - 딥시크릿 오픈 소스 광학 문자 인식 모델

Genspark: Genspark 인텔리전스를 기반으로 한 심층 검색 및 연구 보고서 작성

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사