일반 소개
모킹버드는 AI 기술을 통해 빠른 음성 복제와 텍스트 음성 변환을 실현하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 사용자는 5초 분량의 음성 샘플만 제공하면 음성 콘텐츠를 생성할 수 있습니다. 이 프로젝트는 다양한 중국어 데이터 세트를 지원하며 Windows 및 Linux 시스템에서 잘 작동하며, PyTorch 프레임워크를 사용하고 개발자와 연구자를 위한 사용하기 쉬운 도구와 자세한 설치 지침을 제공합니다.


기능 목록
- 음성 복제: 5초 분량의 음성 샘플에서 임의의 음성 콘텐츠를 생성합니다.
- 텍스트 음성 변환: 텍스트를 입력하면 해당 음성을 생성합니다.
- 다국어 지원: 중국어 및 여러 중국어 데이터 세트 지원
- 크로스 플랫폼 운영: Windows 및 Linux 시스템과 호환 가능
- 실시간 처리: 실시간 음성 생성 제공
- 오픈 소스 코드: 2차 개발 및 연구를 용이하게 하기 위해 코드가 공개됩니다.
도움말 사용
설치 프로세스
- 환경 준비::
- Python 3.7 이상을 설치합니다.
- PyTorch를 설치합니다(버전 1.9.0 권장).
- ffmpeg를 설치합니다.
- 프로젝트 다운로드::
- 모킹버드 프로젝트 주소를 열고 녹색 "코드" 버튼을 클릭한 다음 "ZIP 다운로드"를 선택하여 프로젝트 파일을 다운로드합니다.
- 또는 git 명령을 사용하여 다운로드하세요:
git clone https://github.com/babysor/MockingBird.git
- 종속성 설치::
- 프로젝트 디렉토리로 이동하여 다음을 실행합니다.
pip install -r requirements.txt
필요한 Python 패키지를 설치합니다. - 필요한 경우 conda를 사용하여 가상 환경을 만들고 종속성을 설치할 수 있습니다:
conda env create -n env_name -f env.yml
를 클릭한 다음 환경을 활성화합니다:conda activate env_name
.
- 프로젝트 디렉토리로 이동하여 다음을 실행합니다.
- 음성 전사 모델
메인 파일의 크기를 줄이려면 사운드 모델에 사운드가 포함되어 있지 않은 경우 별도로 다운로드해야하는 경우 클릭하여 다음으로 이동하십시오.다운로드 모델(3G)
사용 프로세스
- 런타임 툴박스::
- 움직여야 합니다.
demo_toolbox.py
를 클릭하여 도구 상자 화면을 엽니다. - 도구 상자에서 음성 샘플 파일을 선택하고 텍스트 내용을 입력한 후 생성 버튼을 클릭하면 해당 음성 파일이 생성됩니다.
- 움직여야 합니다.
- 교육 모델::
- 자체 모델을 트레이닝해야 하는 경우 프로젝트의 트레이닝 튜토리얼을 따를 수 있습니다.
- 교육 데이터 세트를 다운로드하여 준비한 다음
train.py
교육을 시작하세요. - 모델 학습을 위한 중국어 도움말 파일
- 원격 통화::
- 모킹버드에서는 생성된 음성 결과를 원격 호출을 통해 사용할 수 있는 웹 서버 기능을 제공합니다.
- API 인터페이스를 사용하여 호출할 웹 서버를 구성하고 시작합니다.
일반적인 문제
- 설치 실패파이썬 버전이 요구 사항을 충족하는지 확인하고 PyTorch를 설치할 때 버전 호환성에 주의하세요.
- 음성 품질음성 샘플의 품질과 학습 데이터 세트의 풍부함은 생성된 음성의 효과에 영향을 미치며, 학습에는 고품질의 음성 샘플과 다양한 데이터 세트를 사용하는 것이 좋습니다.
Windows 사전 패키지 다운로드(3.7G/텍스트-사운드 변환 모델링 포함)
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...