OuteTTS: 실험적인 텍스트 음성 변환 모델, 순수 언어 모델링 접근 방식을 사용하여 구현된 TTS

최신 AI 리소스7개월 전 업데이트 AI 공유 서클
14.2K 00

일반 소개

OuteTTS는 순수 언어 모델링 접근 방식을 사용하여 고품질 음성을 생성하는 실험적인 텍스트 음성 변환(TTS) 모델입니다. 기존 TTS 시스템과 달리 OuteTTS는 외부 어댑터나 복잡한 아키텍처가 필요하지 않습니다. 이 모델은 LLaMa 아키텍처를 기반으로 하며 임의의 화자 특성을 가진 음성을 생성할 수 있는 음성 복제 기능을 지원하며, OuteTTS는 다양한 애플리케이션 시나리오에 적합한 간단한 아키텍처를 통해 효율적인 음성 합성을 달성하는 것을 목표로 합니다.

OuteTTS-0.1-350M은 텍스트 음성 합성을 간소화하는 데 한 걸음 더 나아간 제품입니다. OuteTTS-0.1-350M은 순전히 언어 모델링 접근 방식을 통해 고품질 음성을 생성할 수 있음을 입증합니다.

 

기능 목록

  • 텍스트 음성 변환: 입력한 텍스트를 자연스럽고 부드러운 음성으로 변환합니다.
  • 음성 복제오디오 파일을 참조하고 해당 음성을 생성하여 사용자 지정 스피커를 만듭니다.
  • 다중 모델 지원허깅 페이스 모델 및 GGUF 모델이 지원됩니다.
  • 오디오 재생 및 저장생성된 음성은 바로 재생하거나 오디오 파일로 저장할 수 있습니다.
  • 온도 및 반복 페널티온도 및 반복 페널티 매개변수를 조정하여 생성된 음성의 다양성과 부드러움을 제어합니다.

 

도움말 사용

설치 프로세스

  1. OuteTTS 설치::
    pip install outetts
    

    중요: GGUF 지원을 받으려면 다음을 수동으로 설치해야 합니다. llama-cpp-python. 방문하십시오 llama-cpp-python 구체적인 설치 지침을 확인하세요.

사용법

  1. 인터페이스 초기화::
    from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF
    # 使用 Hugging Face 模型初始化接口
    interface = InterfaceHF("OuteAI/OuteTTS-0.1-350M")
    # 或者使用 GGUF 模型初始化接口
    # interface = InterfaceGGUF("path/to/model.gguf")
    
  2. TTS 출력 생성::
    output = interface.generate(
    text="Hello, am I working?",
    temperature=0.1,
    repetition_penalty=1.1,
    max_length=4096
    )
    
  3. 생성된 오디오 재생 및 저장::
    # 播放生成的音频
    output.play()
    # 保存生成的音频到文件
    output.save("output.wav")
    

음성 복제

  1. 사용자 지정 스피커 만들기::
    speaker = interface.create_speaker(
    "path/to/reference.wav",
    "reference text matching the audio"
    )
    
  2. 스피커 저장 및 불러오기::
    # 保存说话人到文件
    interface.save_speaker(speaker, "speaker.pkl")
    # 从文件加载说话人
    speaker = interface.load_speaker("speaker.pkl")
    
  3. 사용자 지정 음성으로 TTS 생성::
    output = interface.generate(
    text="This is a cloned voice speaking",
    speaker=speaker,
    temperature=0.1,
    repetition_penalty=1.1,
    max_length=4096
    )
    

매개변수화

  • 온도: 생성되는 음성의 다양성을 제어합니다. 온도가 낮을수록(예: 0.1) 보다 결정론적인 출력을 생성하고, 온도가 높을수록(예: 0.7) 보다 다양한 출력을 생성합니다.
  • 반복 페널티(반복_페널티): 생성된 음성의 반복 수준을 제어합니다. 반복 페널티(예: 1.1)가 높을수록 중복 콘텐츠 생성이 줄어듭니다.

위의 단계를 통해 사용자는 텍스트 음성 변환 및 음성 복제 작업을 위해 OuteTTS 모델을 쉽게 설치하고 사용할 수 있습니다. 자세한 매개변수 조정 및 사용 예제를 통해 사용자는 특정 요구 사항에 따라 고품질의 음성 출력을 생성할 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...