일반 소개
피쉬 스피치는 피쉬 오디오에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 합성 도구입니다. 이 도구는 VQ-GAN, Llama, VITS와 같은 최첨단 AI 기술을 기반으로 하며 텍스트를 사실적인 음성으로 변환할 수 있으며, 여러 언어를 지원할 뿐만 아니라 음성 해설, 음성 비서, 접근성 독서 등 다양한 애플리케이션 시나리오에 효율적인 음성 합성 솔루션을 제공합니다.
음성 복제 프로젝트 FishSpeech 1.5 업데이트 ~ 예를 들어 공유 한 이전과 유사합니다. F5-TTS 및 MaskGCT 피쉬스피치는 5~10초 분량의 음성 샘플만으로 사람의 목소리 특징을 고도로 재현하는 음성 복제 프로젝트로, 중국어, 영어, 일본어, 한국어 등 다양한 언어의 교류를 지원합니다.
오픈 소스 Fish Speech v1.5.0에 최적화된 원피스 통합 팩이 제공되었습니다.
온라인 체험(https://fish.audio/zh-CN/)
권장 30초 오디오
기능 목록
- 다국어 지원여러 언어의 텍스트 음성 변환을 지원합니다.
- 효율적인 합성VQ-GAN, Llama 및 VITS와 같은 기술을 기반으로 한 효율적인 음성 합성.
- 오픈 소스 프로젝트이 코드는 오픈 소스이며 사용자가 자유롭게 다운로드하여 사용할 수 있습니다.
- 온라인 데모온라인 데모 기능 제공, 사용자가 직접 음성합성 효과를 체험할 수 있습니다.
- 모델 다운로드허깅 페이스 플랫폼에서 사전 학습된 모델을 다운로드할 수 있도록 지원합니다.
도움말 사용
설치 프로세스
시스템 요구 사항
- GPU 메모리4GB(추론용), 8GB(미세 조정용)
- 시스템: Linux, Windows
Windows 구성
프로페셔널 사용자
- 코드베이스를 실행하는 데 WSL2 또는 Docker를 사용하는 것을 고려하세요.
비전문가 사용자
- 프로젝트 압축을 풉니다..
- 스트라이크(키보드에서) install_env.bat 설치 환경.
- install_env.bat에서 USE_MIRROR 항목을 편집하여 미러 다운로드를 사용할지 여부를 결정할 수 있습니다.
USE_MIRROR=false
토치 환경의 안정적인 최신 버전을 다운로드하려면 원래 사이트를 이용하세요.USE_MIRROR=true
미러 사이트를 사용하여 최신 토치 환경을 다운로드합니다(기본값).
- 설치 환경 다운로드를 활성화할지 여부는 install_env.bat의 INSTALL_TYPE 항목을 편집하여 결정할 수 있습니다.
INSTALL_TYPE=preview
컴파일 환경의 개발 버전을 다운로드합니다.INSTALL_TYPE=stable
컴파일 환경 없이 안정 버전을 다운로드하세요.
- install_env.bat에서 USE_MIRROR 항목을 편집하여 미러 다운로드를 사용할지 여부를 결정할 수 있습니다.
- 2단계 INSTALL_TYPE=preview인 경우이 단계를 사용하지 않으려면 이 단계를 수행합니다(건너뛸 수 있습니다. 이 단계는 컴파일된 모델 환경을 활성화합니다).
- LLVM 컴파일러를 다운로드하세요:
- LLVM-17.0.6(원본 사이트 다운로드)
- LLVM-17.0.6(미러 사이트 다운로드)
- LLVM-17.0.6-win64.exe를 다운로드한 후 더블클릭하여 설치하고 적절한 설치 위치를 선택한 다음 현재 사용자에 경로 추가를 선택하여 환경 변수를 추가합니다.
- LLVM 컴파일러를 다운로드하세요:
- Microsoft Visual C++ 재배포 가능 패키지 다운로드 및 설치를 사용하여 잠재적인 .dll 손실 문제를 해결할 수 있습니다.
- Visual Studio 커뮤니티 에디션 다운로드 및 설치를 사용하여 LLVM 헤더 파일 종속성을 해결하기 위한 MSVC++ 컴파일 도구를 가져옵니다.
- Visual Studio 다운로드
- Visual Studio 설치 관리자를 설치한 후 Visual Studio Community 2022를 다운로드합니다.
- 수정 버튼을 클릭하고 C++를 사용한 데스크톱 개발 항목을 찾아 다운로드를 선택합니다.
- 다운로드 및 설치 CUDA 툴킷 12.
- 더블 클릭 start.bat 교육 추론 웹UI 관리 인터페이스를 엽니다.. 필요한 경우 아래에 표시된 대로 API_FLAGS를 수정합니다.
- 추론 WebUI 인터페이스를 시작하고 싶으신가요? 프로젝트 루트 디렉터리에서 API_FLAGS.txt를 편집하고 처음 세 줄을 다음 형식으로 변경합니다:
--infer # --api # --listen ...
- API 서버를 시작하고 싶으신가요? 프로젝트 루트 디렉터리에서 API_FLAGS.txt를 편집하고 처음 세 줄을 다음 형식으로 변경합니다:
# --infer --api --listen ...
- 추론 WebUI 인터페이스를 시작하고 싶으신가요? 프로젝트 루트 디렉터리에서 API_FLAGS.txt를 편집하고 처음 세 줄을 다음 형식으로 변경합니다:
- 더블 클릭 run_cmd.bat 이 프로젝트에 대한 conda/python 명령줄 환경으로 들어갑니다..
Linux 구성
- Python 3.10 가상 환경 만들기가상 환경을 사용할 수도 있습니다:
conda create -n fish-speech python=3.10 conda activate fish-speech
- 파이토치 설치::
pip3 install torch torchvision torchaudio
- 물고기 음성 설치::
pip3 install -e .[stable]
- (우분투/데비안 사용자) sox 설치하기::
apt install libsox-dev
Docker 구성
- NVIDIA 컨테이너 툴킷 설치하기::
- 우분투 사용자의 경우:
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \ sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \ sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo systemctl restart docker
- 다른 Linux 배포판을 사용하는 사용자의 경우 NVIDIA 컨테이너 툴킷 설치 가이드를 참조하세요.
- 우분투 사용자의 경우:
- 물고기 음성 이미지를 가져와 실행::
docker pull lengyue233/fish-speech docker run -it \ --name fish-speech \ --gpus all \ -p 7860:7860 \ lengyue233/fish-speech \ zsh
- 다른 포트를 사용해야 하는 경우, 다른 포트의
-p
매개변수YourPort:7860
.
- 다른 포트를 사용해야 하는 경우, 다른 포트의
- 모델 종속성 다운로드::
- 도커 컨테이너 내의 터미널에 있는지 확인한 후 huggingface 리포지토리에서 필요한 vqgan 및 llama 모델을 다운로드하세요:
huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
- 중국 본토 사용자의 경우 미러 사이트를 통해 다운로드할 수 있습니다:
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
- 도커 컨테이너 내의 터미널에 있는지 확인한 후 huggingface 리포지토리에서 필요한 vqgan 및 llama 모델을 다운로드하세요:
- 환경 변수를 구성하려면 웹UI에 액세스합니다.::
- 도커 컨테이너 내부의 터미널에 입력합니다:
export GRADIO_SERVER_NAME="0.0.0.0"
- 그런 다음 도커 컨테이너 내부의 터미널에 입력합니다:
python tools/webui.py
- WSL 또는 MacOS의 경우
http://localhost:7860
WebUI 인터페이스가 열립니다. - 서버에 배포하는 경우
localhost
는 서버 IP입니다.
- 도커 컨테이너 내부의 터미널에 입력합니다:
Fish Audio 원클릭 설치 프로그램
최신 버전의 Niu 추천, 암호 해독 코드: niugee.com
https://drive.google.com/drive/folders/1KeYuZ9fYplDEgA3jg2IUKtECpT0wsz6V?usp=drive_link
링크:https://pan.baidu.com/s/1pWaziAC7xMV908TuOkYdyw?pwd=niug 추출 코드: niug
소드 27 스페셜 에디션: https://pan.quark.cn/s/30608499dee1 압축 해제 비밀번호는 jian27 또는 jian27.com입니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...