전자책2오디오북: 전자책을 오디오북으로 변환, 다국어 지원 및 음성 복제가 가능한 오픈 소스 도구

최신 AI 리소스7개월 전에 게시 됨 AI 공유 서클
3.9K 00

일반 소개

ebook2audiobook은 강력한 오픈 소스 전자책을 오디오북으로 변환하는 도구입니다. 여러 형식의 전자책을 전체 챕터 마커와 메타데이터가 포함된 오디오북으로 변환할 수 있습니다. 이 도구는 전자책 형식 변환을 위해 Calibre를 사용하고, 고품질 텍스트 음성 변환을 위해 Coqui의 XTTSv2 및 Fairseq를 사용하며, 중국어를 포함한 1124개 언어를 지원하고 음성 복제를 제공합니다. 이 도구는 직관적인 웹 GUI와 함께 제공되며 CPU 및 GPU 작동을 지원하며 4GB의 RAM만 있으면 실행할 수 있는 낮은 리소스 요구 사항을 가지고 있습니다. 개인용이든 일괄 변환이든 전문가 수준의 오디오북 제작이 가능합니다.

ebook2audiobook:将电子书转换为有声读物,支持多语言和语音克隆的开源工具

온라인 체험: https://huggingface.co/spaces/drewThomasson/ebook2audiobook

 

ebook2audiobook:将电子书转换为有声读物,支持多语言和语音克隆的开源工具

 

기능 목록

  • epub, pdf, mobi 및 20개 이상의 형식을 포함한 다양한 전자책 형식 변환 지원
  • 전자책 챕터 구조 자동 인식 및 보존
  • 고급 XTTSv2 엔진을 사용한 고품질 텍스트 음성 변환
  • 1124개 언어의 텍스트 음성 변환 처리 지원
  • 음성 복제 기능 제공, 읽기 음성을 사용자 지정할 수 있습니다.
  • 전체 챕터 정보 및 메타데이터가 포함된 m4b 형식 출력
  • 웹 그래픽 인터페이스, 간단하고 직관적인 조작 제공
  • 플랫폼 간 호환성을 보장하기 위해 Docker 컨테이너 배포 지원
  • 처리 속도 향상을 위한 GPU 가속 옵션
  • 일괄 변환 기능 지원

 

도움말 사용

무료로 운영되는 Google Colab

1. 설치 방식

1.1 Docker 사용(권장)

Docker는 가장 쉽게 설치할 수 있는 방법으로, 균일하고 안정적인 런타임 환경을 보장합니다.

CPU 버전 실행 명령:

docker run -it --rm -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py

실행 명령의 GPU 버전(NVIDIA 그래픽 카드 필요):

docker run -it --rm --gpus all -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py

1.2 로컬 설치

  1. 코드 리포지토리를 복제합니다:
git clone https://github.com/DrewThomasson/ebook2audiobook.git
  1. 종속성을 설치합니다:
  • Python 3.x
  • Calibre(전자책 변환 도구)
  • FFmpeg(오디오 처리 도구)
  • 파이썬 패키지: tts, pydub, nltk, beautifulsoup4, ebooklib, tqdm

2. 사용 방법

2.1 그래픽 인터페이스 사용

  1. 프로그램을 실행한 후 브라우저를 통해 http://localhost:7860 을 방문하세요.
  2. 웹 인터페이스에서 전자책 파일 업로드하기
  3. 대상 언어 및 사운드 파일 선택(선택 사항)
  4. 클릭하여 변환 시작

2.2 명령줄 사용법

기본 명령 형식입니다:

python app.py --headless --ebook <电子书文件路径> --language <语言代码> --voice <声音文件路径>

3. 중요한 매개변수에 대한 설명

  • --ebook: 전자책 파일 경로(필수)
  • -언어: 대상 언어 코드(선택 사항, 기본 영어)
  • --음성: 음성 파일 경로(선택 사항, 음성 복제의 경우)
  • --장치: CPU 또는 GPU 사용 여부 선택
  • --속도: 음성 속도 조정(기본값 1.0)

4. 지원되는 파일 형식

입력 형식:

  • EPUB(권장, 가장 잘 지원됨)
  • pdf
  • mobi
  • txt
  • 기타 형식: html, rtf, chm, lit, pdb, fb2, odt 등

출력 형식:

  • m4b(챕터 마커 및 메타데이터가 있는 오디오 포맷)

5. 고급 기능

5.1 음성 복제

  1. 16khz 또는 24khz 타겟 사운드 샘플 파일 준비
  2. 변환 중 사운드 파일 경로 지정
  3. 시스템이 대상 음성을 사용하여 소리내어 읽습니다.

5.2 일괄 변환

  1. 입력 폴더 디렉터리를 만들고 그 안에 전자책 파일을 넣습니다.
  2. 오디오북 출력 디렉토리 만들기
  3. 일괄 변환 명령으로 여러 파일 처리하기

6. 일반적인 문제 해결

  1. 느린 CPU 변환 속도
  • 해결 방법: GPU 가속 사용 또는 클라우드 서비스 사용
  • 권장: 허깅 페이스 스페이스 또는 구글 실험실 사용
  1. 종속 설치 문제
  • 종속성 문제를 피하기 위한 권장 Docker 버전
  • 시스템 호환성 및 종속 버전 확인
  1. 오디오 잘림 문제
  • 입력 텍스트 서식 확인
  • 텍스트 세분화 매개변수 조정
  • 특정 언어 문제를 보고하여 지원 개선
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...