일반 소개
OuteTTS는 순수 언어 모델링 접근 방식을 사용하여 고품질 음성을 생성하는 실험적인 텍스트 음성 변환(TTS) 모델입니다. 기존 TTS 시스템과 달리 OuteTTS는 외부 어댑터나 복잡한 아키텍처가 필요하지 않습니다. 이 모델은 LLaMa 아키텍처를 기반으로 하며 임의의 화자 특성을 가진 음성을 생성할 수 있는 음성 복제 기능을 지원하며, OuteTTS는 다양한 애플리케이션 시나리오에 적합한 간단한 아키텍처를 통해 효율적인 음성 합성을 달성하는 것을 목표로 합니다.
OuteTTS-0.1-350M은 텍스트 음성 합성을 간소화하는 데 한 걸음 더 나아간 제품입니다. OuteTTS-0.1-350M은 순전히 언어 모델링 접근 방식을 통해 고품질 음성을 생성할 수 있음을 입증합니다.
기능 목록
- 텍스트 음성 변환: 입력한 텍스트를 자연스럽고 부드러운 음성으로 변환합니다.
- 음성 복제오디오 파일을 참조하고 해당 음성을 생성하여 사용자 지정 스피커를 만듭니다.
- 다중 모델 지원허깅 페이스 모델 및 GGUF 모델이 지원됩니다.
- 오디오 재생 및 저장생성된 음성은 바로 재생하거나 오디오 파일로 저장할 수 있습니다.
- 온도 및 반복 페널티온도 및 반복 페널티 매개변수를 조정하여 생성된 음성의 다양성과 부드러움을 제어합니다.
도움말 사용
설치 프로세스
- OuteTTS 설치::
pip install outetts
중요: GGUF 지원을 받으려면 다음을 수동으로 설치해야 합니다.
llama-cpp-python
. 방문하십시오 llama-cpp-python 구체적인 설치 지침을 확인하세요.
사용법
- 인터페이스 초기화::
from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF # 使用 Hugging Face 模型初始化接口 interface = InterfaceHF("OuteAI/OuteTTS-0.1-350M") # 或者使用 GGUF 模型初始化接口 # interface = InterfaceGGUF("path/to/model.gguf")
- TTS 출력 생성::
output = interface.generate( text="Hello, am I working?", temperature=0.1, repetition_penalty=1.1, max_length=4096 )
- 생성된 오디오 재생 및 저장::
# 播放生成的音频 output.play() # 保存生成的音频到文件 output.save("output.wav")
음성 복제
- 사용자 지정 스피커 만들기::
speaker = interface.create_speaker( "path/to/reference.wav", "reference text matching the audio" )
- 스피커 저장 및 불러오기::
# 保存说话人到文件 interface.save_speaker(speaker, "speaker.pkl") # 从文件加载说话人 speaker = interface.load_speaker("speaker.pkl")
- 사용자 지정 음성으로 TTS 생성::
output = interface.generate( text="This is a cloned voice speaking", speaker=speaker, temperature=0.1, repetition_penalty=1.1, max_length=4096 )
매개변수화
- 온도: 생성되는 음성의 다양성을 제어합니다. 온도가 낮을수록(예: 0.1) 보다 결정론적인 출력을 생성하고, 온도가 높을수록(예: 0.7) 보다 다양한 출력을 생성합니다.
- 반복 페널티(반복_페널티): 생성된 음성의 반복 수준을 제어합니다. 반복 페널티(예: 1.1)가 높을수록 중복 콘텐츠 생성이 줄어듭니다.
위의 단계를 통해 사용자는 텍스트 음성 변환 및 음성 복제 작업을 위해 OuteTTS 모델을 쉽게 설치하고 사용할 수 있습니다. 자세한 매개변수 조정 및 사용 예제를 통해 사용자는 특정 요구 사항에 따라 고품질의 음성 출력을 생성할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...