MLX-Audio: Apple의 MLX 프레임워크에 기반한 텍스트 음성 변환 도구

최신 AI 리소스5개월 전에 게시 됨 AI 공유 서클
2.3K 00

일반 소개

MLX-Audio는 Apple의 MLX 프레임워크를 기반으로 개발된 오픈 소스 도구로, 텍스트 음성 변환(TTS) 및 음성 음성 변환(STS) 기능에 중점을 두고 있습니다. 이 도구는 M 시리즈 칩과 같은 Apple Silicon의 컴퓨팅 성능을 활용하여 효율적이고 빠른 음성 합성 솔루션을 제공합니다. 텍스트를 자연스럽고 부드러운 음성으로 변환하거나 기존 음성을 기반으로 새로운 오디오를 생성하는 등 MLX-Audio는 모든 작업을 수행할 수 있습니다. 개발자, 연구자 및 개인 사용자에게 macOS에서 실행되는 고성능 음성 생성 옵션을 제공하는 것을 목표로 하는 이 도구는 GitHub 사용자 Blaizzy(프린스 카누마)에 의해 개발되었습니다. 오픈 소스 프로젝트로서 사용자는 코드를 자유롭게 다운로드, 수정 및 기여할 수 있으므로 현지화된 음성 처리가 필요한 애플리케이션 시나리오에 이상적입니다.

 

기능 목록

  • 텍스트 음성 변환(TTS)입력 텍스트를 자연스러운 음성으로 빠르게 변환하여 다양한 모델 선택을 지원합니다.
  • STS(음성 변환)기존 음성 샘플을 기반으로 새로운 오디오 콘텐츠를 생성합니다.
  • 효율적인 추론애플 실리콘에 최적화되어 빠른 음성 생성 성능을 제공합니다.
  • 다중 모델 지원다양한 요구 사항을 충족하기 위해 사전 학습된 다양한 음성 합성 모델을 지원합니다.
  • 오픈 소스 사용자 지정전체 소스 코드가 제공되며 사용자는 필요에 따라 기능을 조정하거나 모델을 최적화할 수 있습니다.
  • 로컬 운영클라우드에 의존할 필요 없이 개인 디바이스에서 모든 작업을 수행하여 개인 정보를 보호할 수 있습니다.

 

도움말 사용

설치 프로세스

MLX-Audio는 GitHub 저장소의 코드와 일부 필수 Python 라이브러리를 사용하는 간단한 설치 프로세스를 갖춘 Python 기반 도구입니다. 자세한 설치 단계는 다음과 같습니다:

  1. 환경 준비성 보장
    • 시스템 요구 사항: macOS(M1, M2 등 M 시리즈 칩이 탑재된 디바이스에 권장).
    • Python 3.8 이상을 설치합니다(홈브루 권장):brew install python).
    • Git을 설치합니다(리포지토리 복제용):brew install git.
  2. MLX-오디오 웨어하우스 복제
    터미널을 열고 다음 명령을 입력하여 소스 코드를 다운로드합니다:

    git clone https://github.com/Blaizzy/mlx-audio.git

다운로드가 완료되면 프로젝트 디렉토리로 이동합니다:

cd mlx-audio
  1. 종속성 설치
    프로젝트는 일반적으로 requirements.txt 파일에 필요한 Python 라이브러리가 나열되어 있습니다. 다음 명령을 실행하여 설치합니다:

    pip install -r requirements.txt
    

    이 파일이 없는 경우 공식 README를 참조하세요. 일반적인 종속성에는 다음이 포함될 수 있습니다. mlx(Apple의 머신 러닝 프레임워크) 및 다음과 같은 오디오 처리 라이브러리 numpy 어쩌면 soundfile.

  2. 설치 확인
    설치가 완료되면 간단한 테스트 명령을 실행하여 환경이 올바르게 구성되었는지 확인합니다:

    python -m mlx_audio.tts.generate --text "Hello, world"
    

    성공하면 생성된 음성이 들리거나 현재 디렉토리에 오디오 파일이 생성됩니다.

MLX-Audio 사용 방법

MLX-Audio는 명령줄 인터페이스(CLI)와 Python 스크립트 두 가지 사용 방법을 제공하며, 주요 기능의 작동 흐름에 대한 자세한 설명은 다음과 같습니다.

텍스트 음성 변환(TTS)

이것은 텍스트를 음성으로 변환하는 MLX-Audio의 핵심 기능입니다.

  • 절차::
    1. 준비된 텍스트: 변환할 텍스트를 결정합니다(예: "안녕하세요, MLX-Audio 환경에 오신 것을 환영합니다").
    2. 명령 실행터미널에 입력합니다:
      python -m mlx_audio.tts.generate --text "你好,欢迎体验 MLX-Audio" --output "welcome.wav"
      
      • --text: 입력 텍스트를 지정합니다.
      • --output출력 오디오 파일의 이름을 지정합니다(선택 사항, 기본적으로 파일은 현재 디렉터리에 생성됩니다).
    3. 검사 결과: 명령이 실행된 후 생성된 오디오 파일(예 welcome.wav)가 현재 디렉토리에 저장되고 플레이어로 열면 음성을 들을 수 있습니다.
  • 고급 옵션::
    • 모델 지정: 여러 모델이 지원되는 경우 다음을 통해 지정할 수 있습니다. --model 매개변수 선택 등을 예로 들 수 있습니다:
      python -m mlx_audio.tts.generate --text "Hello" --model "model_name"
      
    • 말의 속도 또는 음높이 조정: README 또는 코드 설명에 따라 추가 매개 변수가 지원될 수 있습니다(예. --speed 어쩌면 --pitch), 실현 여부에 따라 다릅니다.

STS(음성 변환)

이 기능을 사용하면 기존 오디오를 기반으로 새로운 음성 콘텐츠를 생성할 수 있습니다.

  • 절차::
    1. 입력 오디오 준비하기: WAV 형식의 오디오 파일이 있는지 확인합니다(예 input.wav), 휴대폰으로 녹화하거나 다른 출처에서 얻을 수 있습니다.
    2. 명령 실행: 다음 명령을 입력합니다:
      python -m mlx_audio.sts.generate --input "input.wav" --output "output.wav"
      
      • --input: 입력 오디오 파일 경로를 지정합니다.
      • --output: 출력 파일 경로를 지정합니다.
    3. 검사 결과생성된 새 오디오는 다음과 같이 저장됩니다. output.wav를 클릭하면 플레이어로 효과를 확인할 수 있습니다.
  • 주의::
    • 입력 오디오의 품질은 출력에 영향을 미치므로 선명한 녹음을 권장합니다.
    • 생성된 콘텐츠를 사용자 지정해야 하는 경우 추가 매개변수가 필요할 수 있으므로 프로젝트 설명서를 참조하세요.

사용자 지정 개발

MLX-Audio는 오픈 소스 프로젝트이므로 사용자가 코드를 수정하여 더 많은 기능을 구현할 수 있습니다.

  • 이동::
    1. 프로젝트 폴더를 열고 텍스트 편집기(예: VS 코드)를 사용하여 다음을 확인합니다. mlx_audio 디렉토리의 Python 파일입니다.
    2. 필요에 따라 코드를 수정합니다(예: 새 음성 모델 지원을 추가하거나 생성 로직을 조정하는 등).
    3. 테스트를 저장하고 실행합니다:
      python your_script.py
      

기능 작동 프로세스 세부 정보

빠른 음성 생성

  • take도구의 효과를 빠르게 테스트하고 싶습니다.
  • 워크플로::
    1. 터미널을 열고 다음 위치로 이동합니다. mlx-audio 카탈로그.
    2. 간단한 TTS 명령을 입력합니다:
      python -m mlx_audio.tts.generate --text "测试语音生成"
      
    3. 텍스트의 길이와 디바이스의 성능에 따라 몇 초간 기다리면 오디오 파일이 자동으로 생성됩니다.
  • 결국: 기본 명명된 오디오 파일을 생성합니다(예 output.wav), 바로 재생하세요.

긴 텍스트 처리

  • take: 글을 음성으로 변환해야 합니다.
  • 워크플로::
    1. 텍스트를 파일로 저장합니다(예 text.txt), 콘텐츠는 여러 단락으로 구성할 수 있습니다.
    2. 명령을 사용하여 파일을 읽습니다:
      python -m mlx_audio.tts.generate --file "text.txt" --output "article.wav"
      
      • --file텍스트 파일의 경로를 지정합니다(프로젝트에서 이 매개변수를 지원하는지 확인하고 지원하지 않는 경우 파이썬 스크립트를 사용하여 파일을 읽고 호출합니다).
    3. 생성된 article.wav를 사용하여 자연스럽고 유창한 음성을 보장합니다.

일괄 생성

  • take여러 텍스트에 대한 음성을 생성해야 합니다.
  • 워크플로::
    1. 간단한 Python 스크립트를 작성합니다(예 batch_generate.py):
      from mlx_audio.tts import generate
      texts = ["文本1", "文本2", "文本3"]
      for i, text in enumerate(texts):
      generate(text=text, output=f"output_{i}.wav")
      
    2. 스크립트를 실행합니다:
      python batch_generate.py
      
    3. 생성된 여러 오디오 파일을 확인합니다.

  • 성능 최적화M-시리즈 실리콘 디바이스에서 실행할 때는 최적의 속도를 위해 다른 고부하 작업이 리소스를 차지하지 않는지 확인하세요.
  • 문제 디버깅오류(예: 누락된 종속성)가 발생하면 터미널 출력을 확인하고 지시에 따라 누락된 라이브러리를 설치하세요.
  • 커뮤니티 지원기능이 명확하지 않은 경우 GitHub에 이슈를 제출하거나 기존 토론을 확인하세요.

이러한 단계를 통해 사용자는 간단한 음성을 생성하든 복잡한 애플리케이션을 개발하든 MLX-Audio를 쉽게 시작할 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...