일반 소개
MLX-Audio는 Apple의 MLX 프레임워크를 기반으로 개발된 오픈 소스 도구로, 텍스트 음성 변환(TTS) 및 음성 음성 변환(STS) 기능에 중점을 두고 있습니다. 이 도구는 M 시리즈 칩과 같은 Apple Silicon의 컴퓨팅 성능을 활용하여 효율적이고 빠른 음성 합성 솔루션을 제공합니다. 텍스트를 자연스럽고 부드러운 음성으로 변환하거나 기존 음성을 기반으로 새로운 오디오를 생성하는 등 MLX-Audio는 모든 작업을 수행할 수 있습니다. 개발자, 연구자 및 개인 사용자에게 macOS에서 실행되는 고성능 음성 생성 옵션을 제공하는 것을 목표로 하는 이 도구는 GitHub 사용자 Blaizzy(프린스 카누마)에 의해 개발되었습니다. 오픈 소스 프로젝트로서 사용자는 코드를 자유롭게 다운로드, 수정 및 기여할 수 있으므로 현지화된 음성 처리가 필요한 애플리케이션 시나리오에 이상적입니다.
기능 목록
- 텍스트 음성 변환(TTS)입력 텍스트를 자연스러운 음성으로 빠르게 변환하여 다양한 모델 선택을 지원합니다.
- STS(음성 변환)기존 음성 샘플을 기반으로 새로운 오디오 콘텐츠를 생성합니다.
- 효율적인 추론애플 실리콘에 최적화되어 빠른 음성 생성 성능을 제공합니다.
- 다중 모델 지원다양한 요구 사항을 충족하기 위해 사전 학습된 다양한 음성 합성 모델을 지원합니다.
- 오픈 소스 사용자 지정전체 소스 코드가 제공되며 사용자는 필요에 따라 기능을 조정하거나 모델을 최적화할 수 있습니다.
- 로컬 운영클라우드에 의존할 필요 없이 개인 디바이스에서 모든 작업을 수행하여 개인 정보를 보호할 수 있습니다.
도움말 사용
설치 프로세스
MLX-Audio는 GitHub 저장소의 코드와 일부 필수 Python 라이브러리를 사용하는 간단한 설치 프로세스를 갖춘 Python 기반 도구입니다. 자세한 설치 단계는 다음과 같습니다:
- 환경 준비성 보장
- 시스템 요구 사항: macOS(M1, M2 등 M 시리즈 칩이 탑재된 디바이스에 권장).
- Python 3.8 이상을 설치합니다(홈브루 권장):
brew install python
). - Git을 설치합니다(리포지토리 복제용):
brew install git
.
- MLX-오디오 웨어하우스 복제
터미널을 열고 다음 명령을 입력하여 소스 코드를 다운로드합니다:git clone https://github.com/Blaizzy/mlx-audio.git
다운로드가 완료되면 프로젝트 디렉토리로 이동합니다:
cd mlx-audio
- 종속성 설치
프로젝트는 일반적으로requirements.txt
파일에 필요한 Python 라이브러리가 나열되어 있습니다. 다음 명령을 실행하여 설치합니다:pip install -r requirements.txt
이 파일이 없는 경우 공식 README를 참조하세요. 일반적인 종속성에는 다음이 포함될 수 있습니다.
mlx
(Apple의 머신 러닝 프레임워크) 및 다음과 같은 오디오 처리 라이브러리numpy
어쩌면soundfile
. - 설치 확인
설치가 완료되면 간단한 테스트 명령을 실행하여 환경이 올바르게 구성되었는지 확인합니다:python -m mlx_audio.tts.generate --text "Hello, world"
성공하면 생성된 음성이 들리거나 현재 디렉토리에 오디오 파일이 생성됩니다.
MLX-Audio 사용 방법
MLX-Audio는 명령줄 인터페이스(CLI)와 Python 스크립트 두 가지 사용 방법을 제공하며, 주요 기능의 작동 흐름에 대한 자세한 설명은 다음과 같습니다.
텍스트 음성 변환(TTS)
이것은 텍스트를 음성으로 변환하는 MLX-Audio의 핵심 기능입니다.
- 절차::
- 준비된 텍스트: 변환할 텍스트를 결정합니다(예: "안녕하세요, MLX-Audio 환경에 오신 것을 환영합니다").
- 명령 실행터미널에 입력합니다:
python -m mlx_audio.tts.generate --text "你好,欢迎体验 MLX-Audio" --output "welcome.wav"
--text
: 입력 텍스트를 지정합니다.--output
출력 오디오 파일의 이름을 지정합니다(선택 사항, 기본적으로 파일은 현재 디렉터리에 생성됩니다).
- 검사 결과: 명령이 실행된 후 생성된 오디오 파일(예
welcome.wav
)가 현재 디렉토리에 저장되고 플레이어로 열면 음성을 들을 수 있습니다.
- 고급 옵션::
- 모델 지정: 여러 모델이 지원되는 경우 다음을 통해 지정할 수 있습니다.
--model
매개변수 선택 등을 예로 들 수 있습니다:python -m mlx_audio.tts.generate --text "Hello" --model "model_name"
- 말의 속도 또는 음높이 조정: README 또는 코드 설명에 따라 추가 매개 변수가 지원될 수 있습니다(예.
--speed
어쩌면--pitch
), 실현 여부에 따라 다릅니다.
- 모델 지정: 여러 모델이 지원되는 경우 다음을 통해 지정할 수 있습니다.
STS(음성 변환)
이 기능을 사용하면 기존 오디오를 기반으로 새로운 음성 콘텐츠를 생성할 수 있습니다.
- 절차::
- 입력 오디오 준비하기: WAV 형식의 오디오 파일이 있는지 확인합니다(예
input.wav
), 휴대폰으로 녹화하거나 다른 출처에서 얻을 수 있습니다. - 명령 실행: 다음 명령을 입력합니다:
python -m mlx_audio.sts.generate --input "input.wav" --output "output.wav"
--input
: 입력 오디오 파일 경로를 지정합니다.--output
: 출력 파일 경로를 지정합니다.
- 검사 결과생성된 새 오디오는 다음과 같이 저장됩니다.
output.wav
를 클릭하면 플레이어로 효과를 확인할 수 있습니다.
- 입력 오디오 준비하기: WAV 형식의 오디오 파일이 있는지 확인합니다(예
- 주의::
- 입력 오디오의 품질은 출력에 영향을 미치므로 선명한 녹음을 권장합니다.
- 생성된 콘텐츠를 사용자 지정해야 하는 경우 추가 매개변수가 필요할 수 있으므로 프로젝트 설명서를 참조하세요.
사용자 지정 개발
MLX-Audio는 오픈 소스 프로젝트이므로 사용자가 코드를 수정하여 더 많은 기능을 구현할 수 있습니다.
- 이동::
- 프로젝트 폴더를 열고 텍스트 편집기(예: VS 코드)를 사용하여 다음을 확인합니다.
mlx_audio
디렉토리의 Python 파일입니다. - 필요에 따라 코드를 수정합니다(예: 새 음성 모델 지원을 추가하거나 생성 로직을 조정하는 등).
- 테스트를 저장하고 실행합니다:
python your_script.py
- 프로젝트 폴더를 열고 텍스트 편집기(예: VS 코드)를 사용하여 다음을 확인합니다.
기능 작동 프로세스 세부 정보
빠른 음성 생성
- take도구의 효과를 빠르게 테스트하고 싶습니다.
- 워크플로::
- 터미널을 열고 다음 위치로 이동합니다.
mlx-audio
카탈로그. - 간단한 TTS 명령을 입력합니다:
python -m mlx_audio.tts.generate --text "测试语音生成"
- 텍스트의 길이와 디바이스의 성능에 따라 몇 초간 기다리면 오디오 파일이 자동으로 생성됩니다.
- 터미널을 열고 다음 위치로 이동합니다.
- 결국: 기본 명명된 오디오 파일을 생성합니다(예
output.wav
), 바로 재생하세요.
긴 텍스트 처리
- take: 글을 음성으로 변환해야 합니다.
- 워크플로::
- 텍스트를 파일로 저장합니다(예
text.txt
), 콘텐츠는 여러 단락으로 구성할 수 있습니다. - 명령을 사용하여 파일을 읽습니다:
python -m mlx_audio.tts.generate --file "text.txt" --output "article.wav"
--file
텍스트 파일의 경로를 지정합니다(프로젝트에서 이 매개변수를 지원하는지 확인하고 지원하지 않는 경우 파이썬 스크립트를 사용하여 파일을 읽고 호출합니다).
- 생성된
article.wav
를 사용하여 자연스럽고 유창한 음성을 보장합니다.
- 텍스트를 파일로 저장합니다(예
일괄 생성
- take여러 텍스트에 대한 음성을 생성해야 합니다.
- 워크플로::
- 간단한 Python 스크립트를 작성합니다(예
batch_generate.py
):from mlx_audio.tts import generate texts = ["文本1", "文本2", "文本3"] for i, text in enumerate(texts): generate(text=text, output=f"output_{i}.wav")
- 스크립트를 실행합니다:
python batch_generate.py
- 생성된 여러 오디오 파일을 확인합니다.
- 간단한 Python 스크립트를 작성합니다(예
팁
- 성능 최적화M-시리즈 실리콘 디바이스에서 실행할 때는 최적의 속도를 위해 다른 고부하 작업이 리소스를 차지하지 않는지 확인하세요.
- 문제 디버깅오류(예: 누락된 종속성)가 발생하면 터미널 출력을 확인하고 지시에 따라 누락된 라이브러리를 설치하세요.
- 커뮤니티 지원기능이 명확하지 않은 경우 GitHub에 이슈를 제출하거나 기존 토론을 확인하세요.
이러한 단계를 통해 사용자는 간단한 음성을 생성하든 복잡한 애플리케이션을 개발하든 MLX-Audio를 쉽게 시작할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...