모킹버드: 빠른 음성 복제 및 모델 학습, xtts v2 기반 텍스트 음성 변환

55.9K 00

일반 소개

모킹버드는 AI 기술을 통해 빠른 음성 복제와 텍스트 음성 변환을 실현하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 사용자는 5초 분량의 음성 샘플만 제공하면 음성 콘텐츠를 생성할 수 있습니다. 이 프로젝트는 다양한 중국어 데이터 세트를 지원하며 Windows 및 Linux 시스템에서 잘 작동하며, PyTorch 프레임워크를 사용하고 개발자와 연구자를 위한 사용하기 쉬운 도구와 자세한 설치 지침을 제공합니다.

MockingBird：快速克隆声音与模型训练，基于 xtts v2 实现的文本转语音

기능 목록

음성 복제: 5초 분량의 음성 샘플에서 임의의 음성 콘텐츠를 생성합니다.
텍스트 음성 변환: 텍스트를 입력하면 해당 음성을 생성합니다.
다국어 지원: 중국어 및 여러 중국어 데이터 세트 지원
크로스 플랫폼 운영: Windows 및 Linux 시스템과 호환 가능
실시간 처리: 실시간 음성 생성 제공
오픈 소스 코드: 2차 개발 및 연구를 용이하게 하기 위해 코드가 공개됩니다.

도움말 사용

설치 프로세스

환경 준비::
- Python 3.7 이상을 설치합니다.
- PyTorch를 설치합니다(버전 1.9.0 권장).
- ffmpeg를 설치합니다.
프로젝트 다운로드::
- 모킹버드 프로젝트 주소를 열고 녹색 "코드" 버튼을 클릭한 다음 "ZIP 다운로드"를 선택하여 프로젝트 파일을 다운로드합니다.
- 또는 git 명령을 사용하여 다운로드하세요:git clone https://github.com/babysor/MockingBird.git
종속성 설치::
- 프로젝트 디렉토리로 이동하여 다음을 실행합니다. pip install -r requirements.txt 필요한 Python 패키지를 설치합니다.
- 필요한 경우 conda를 사용하여 가상 환경을 만들고 종속성을 설치할 수 있습니다:conda env create -n env_name -f env.yml를 클릭한 다음 환경을 활성화합니다:conda activate env_name.
음성 전사 모델

메인 파일의 크기를 줄이려면 사운드 모델에 사운드가 포함되어 있지 않은 경우 별도로 다운로드해야하는 경우 클릭하여 다음으로 이동하십시오.다운로드 모델(3G)

사용 프로세스

런타임 툴박스::
- 움직여야 합니다. demo_toolbox.py를 클릭하여 도구 상자 화면을 엽니다.
- 도구 상자에서 음성 샘플 파일을 선택하고 텍스트 내용을 입력한 후 생성 버튼을 클릭하면 해당 음성 파일이 생성됩니다.
교육 모델::
- 자체 모델을 트레이닝해야 하는 경우 프로젝트의 트레이닝 튜토리얼을 따를 수 있습니다.
- 교육 데이터 세트를 다운로드하여 준비한 다음 train.py 교육을 시작하세요.
- 모델 학습을 위한 중국어 도움말 파일
원격 통화::
- 모킹버드에서는 생성된 음성 결과를 원격 호출을 통해 사용할 수 있는 웹 서버 기능을 제공합니다.
- API 인터페이스를 사용하여 호출할 웹 서버를 구성하고 시작합니다.

일반적인 문제

설치 실패파이썬 버전이 요구 사항을 충족하는지 확인하고 PyTorch를 설치할 때 버전 호환성에 주의하세요.
음성 품질음성 샘플의 품질과 학습 데이터 세트의 풍부함은 생성된 음성의 효과에 영향을 미치며, 학습에는 고품질의 음성 샘플과 다양한 데이터 세트를 사용하는 것이 좋습니다.