Abogen: 여러 텍스트 형식을 오디오북으로 변환하는 도구

69.3K 00

일반 소개

Abogen은 ePub, PDF 또는 일반 텍스트 파일을 고품질 오디오로 빠르게 변환하도록 설계된 오픈 소스 도구입니다. Kokoro-82M 모델을 사용하여 자연스럽고 부드러운 음성을 생성하고 동시 자막 생성을 지원하므로 오디오북, 비디오 더빙 또는 학습 보조 도구에 적합합니다. 사용자는 여러 언어와 남성 및 여성 음성을 선택하고, 자막의 세분성을 조정하고, 다양한 음성 모델을 혼합하여 독특한 음향 효과를 만들 수 있으며, Abogen은 WAV, FLAC, MP3 및 M4B와 같은 오디오 형식을 지원하며 사용하기 쉽고 Windows, Linux 및 macOS와 호환됩니다.

기능 목록

ePub, PDF, TXT 파일 입력 및 자동 텍스트 추출을 지원합니다.
Kokoro-82M 모델을 사용하여 고품질의 자연스러운 음성을 생성합니다.
미국 영어, 영국 영어 등 다양한 언어와 남성 및 여성 음성 옵션을 사용할 수 있습니다.
문장, 단어 또는 사용자 지정 세부 단위로 세분화하여 자막 생성을 지원합니다.
다양한 음성 모델을 혼합하여 개인화된 음성을 만들 수 있습니다.
출력 오디오 형식에는 WAV, FLAC, MP3 및 M4B(챕터 지원)가 포함됩니다.
텍스트 편집기가 내장되어 있어 직접 텍스트를 쉽게 입력하거나 수정할 수 있습니다.
설치 및 운영을 간소화하기 위해 Docker 배포를 지원합니다.
데스크톱 또는 사용자 지정 폴더 등 출력 파일을 저장할 위치를 선택합니다.

도움말 사용

설치 프로세스

Abogen을 설치하려면 Python 환경과 espeak-ng을 비롯한 여러 종속성이 필요합니다. 자세한 단계는 다음과 같습니다:

1. espeak-ng 설치

운영 체제용 사본을 다운로드하려면 espeak-ng의 최신 릴리스 페이지를 방문하세요. .msi 파일(Windows)을 다운로드하거나 패키지 관리자(Linux/macOS)를 통해 설치합니다.
Windows 사용자: 다운로드한 .msi 파일을 열고 지시에 따라 설치를 완료합니다.
Linux 사용자: 명령 실행 sudo apt-get install espeak-ng(우분투/데비안) 또는 sudo yum install espeak-ng(CentOS).
macOS 사용자: 홈브루로 실행 brew install espeak-ng.

2. Python 및 PyTorch 설치하기

시스템에 Python 3.8 이상이 설치되어 있는지 확인합니다.

PyTorch를 설치합니다(GPU 가속을 위해 NVIDIA GPU를 권장합니다):

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

NVIDIA GPU가 없는 경우 다음 명령을 실행하여 CPU 버전을 설치하세요:
```
pip install torch torchvision torchaudio
```

3. Abogen 설치

다음 명령을 실행하여 Abogen을 설치합니다:
```
pip install abogen
```
설치가 완료되면 다음을 실행합니다. abogen 명령은 그래픽 인터페이스(GUI)를 시작합니다.

4. 도커 사용(선택 사항)

Docker를 통해 Abogen을 실행하려는 경우 종속성 관리를 간소화할 수 있습니다:
- Docker가 설치되어 있는지 확인합니다.
- Abogen 리포지토리 복제:
```
git clone https://github.com/denizsafak/abogen.git
cd abogen
```
- Docker 이미지를 빌드합니다:
```
docker build --progress plain -t abogen .
```
- Docker 컨테이너를 실행합니다:
  - Windows:
```
docker run --name abogen -v %CD%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
```
  - Linux:
```
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
```
  - macOS:
```
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen
```
- 아보젠을 방문하세요:
  - 브라우저를 통한 액세스 http://localhost:5800.
  - 또는 VNC 클라이언트를 사용하여 연결 localhost:5900.

주요 기능

1. 텍스트를 오디오로 변환하기

Abogen을 시작하면 그래픽 인터페이스가 열립니다.
'파일 선택' 버튼을 클릭하여 ePub, PDF 또는 TXT 파일을 업로드하거나 내장된 텍스트 편집기를 사용하여 텍스트를 입력합니다.
언어 및 음성 선택(예 a_m 미국 영어 남성 목소리를 나타냅니다.b_f (영국 영어 여성 목소리를 나타냅니다).
자막 옵션 구성: "문장", "문장 + 쉼표"를 선택하거나 단어 수(예: 1단어, 2단어)로 분할합니다.
생성 버튼을 클릭하고 처리가 완료될 때까지 기다립니다. 처리 시간은 파일 크기와 하드웨어 성능에 따라 다릅니다(예: RTX 2060에서 3000자 텍스트의 경우 약 11초가 소요됨).

2. 맞춤형 음성

음성 믹서에서 다양한 음성 모델의 비율을 조정하여 독특한 음향 효과를 만들 수 있습니다.
믹스 구성을 '음성 프로필'로 저장하여 쉽게 재사용할 수 있습니다.
음성 효과 테스트: '미리보기' 버튼을 클릭하여 생성된 사운드 클립을 들어보세요.

3. 출력 설정

오디오 형식 선택: WAV(무손실), FLAC(압축 무손실), MP3(범용) 또는 M4B(챕터가 지원되는 오디오북 형식).
저장 위치 설정: '데스크톱에 저장', '입력 파일 옆에 저장' 또는 사용자 지정 폴더를 선택합니다.
자막이 필요한 경우 '자막 생성'을 체크하고 출력 형식(예: SRT)을 선택합니다.

4. 명령줄 모드

그래픽 인터페이스에 문제가 있는 경우 명령줄에서 실행할 수 있습니다:
```
abogen --cli
```
명령줄 모드에서는 자세한 오류 메시지가 표시되므로 쉽게 문제를 해결할 수 있습니다.

주의

입력 파일의 형식이 올바른지 확인하세요. PDF 파일은 복잡한 레이아웃으로 인해 텍스트 추출이 불완전할 수 있습니다.
빠른 처리를 위해 GPU 가속을 권장하며, CPU 처리는 느려질 수 있습니다.
문제가 발생하면 GitHub의 이슈 페이지를 확인하거나 새 이슈를 제출하여 도움을 요청하세요.

애플리케이션 시나리오

오디오북 제작
사용자는 소설, 교과서 또는 문서를 오디오북으로 변환하여 출퇴근이나 운동 중에 쉽게 들을 수 있으며, Abogen의 M4B 출력은 긴 콘텐츠를 위한 챕터 분할을 지원합니다.
비디오 더빙
콘텐츠 제작자는 동기화된 자막을 사용하여 YouTube, TikTok 또는 Instagram 동영상에 자연스러운 보이스오버를 생성하여 동영상의 전문성을 높일 수 있습니다.
학습 지원
학생들은 PDF 교과서나 유인물을 오디오로 변환하고 자막과 결합하여 언어 학습자나 시각 장애인에게 적합한 듣기 및 학습을 지원할 수 있습니다.
팟캐스트 제작
팟캐스트 제작자는 스크립트를 오디오로 변환하고, 오디션 클립을 빠르게 생성하고, 쇼의 주제에 맞게 음성 스타일을 조정할 수 있습니다.

QA

Abogen은 어떤 파일 형식을 지원하나요?
Abogen은 ePub, PDF, TXT 파일을 입력으로 지원하며, WAV, FLAC, MP3, M4B 등의 오디오 포맷과 SRT 형식의 자막을 출력합니다.
텍스트 추출의 정확도를 높이려면 어떻게 해야 하나요?
PDF 파일의 경우 레이아웃이 단순한 문서를 사용하는 것이 좋습니다. 추출이 정확하지 않은 경우 입력하기 전에 PDF를 TXT 파일로 변환할 수 있습니다.
Abogen을 실행하려면 GPU가 필요한가요?
필수는 아니지만 NVIDIA GPU를 사용하면 처리 속도가 크게 빨라질 수 있습니다. CPU도 작동하지만 속도가 느립니다.
코드를 기여하거나 문제를 신고하려면 어떻게 하나요?
GitHub 리포지토리를 방문하여 풀 리퀘스트를 제출하여 코드를 기여하거나 이슈 페이지에서 자세한 오류 정보와 함께 이슈를 신고하세요.

심층 연구 보고서 생성을 위한 Claude의 MCP 서비스

10개월 전

049.3K

GPT 연구원: 로컬 및 웹 기반 데이터를 사용하여 포괄적이고 상세한 연구 보고서 생성

11개월 전

045.1K

GroundX: 환상 없는 실제 데이터에 기반한 RAG(검색 증강) API 구축

1 년 전

049.1K

Petals：分布式共享GPU运行和微调大语言模型，像BitTorrent网络一样共享GPU资源

Petals: 대규모 언어 모델의 분산 공유 GPU 실행 및 미세 조정, BitTorrent 네트워크와 같은 GPU 리소스 공유

1 년 전

058.1K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

Abogen: 여러 텍스트 형식을 오디오북으로 변환하는 도구

일반 소개

기능 목록

도움말 사용

설치 프로세스

1. espeak-ng 설치

2. Python 및 PyTorch 설치하기

3. Abogen 설치

4. 도커 사용(선택 사항)

주요 기능

1. 텍스트를 오디오로 변환하기

2. 맞춤형 음성

3. 출력 설정

4. 명령줄 모드

주의

애플리케이션 시나리오

QA

로컬 심층 연구: 심층 연구 보고서 생성을 위한 로컬 실행 도구

llm.pdf: PDF 파일에서 대규모 언어 모델을 실행하는 실험 프로젝트

관련 문서

심층 연구 보고서 생성을 위한 Claude의 MCP 서비스

GPT 연구원: 로컬 및 웹 기반 데이터를 사용하여 포괄적이고 상세한 연구 보고서 생성

GroundX: 환상 없는 실제 데이터에 기반한 RAG(검색 증강) API 구축

Petals: 대규모 언어 모델의 분산 공유 GPU 실행 및 미세 조정, BitTorrent 네트워크와 같은 GPU 리소스 공유

댓글 없음

최신 컬렉션

최신 기사

Abogen: 여러 텍스트 형식을 오디오북으로 변환하는 도구

일반 소개

기능 목록

도움말 사용

설치 프로세스

1. espeak-ng 설치

2. Python 및 PyTorch 설치하기

3. Abogen 설치

4. 도커 사용(선택 사항)

주요 기능

1. 텍스트를 오디오로 변환하기

2. 맞춤형 음성

3. 출력 설정

4. 명령줄 모드

주의

애플리케이션 시나리오

QA

로컬 심층 연구: 심층 연구 보고서 생성을 위한 로컬 실행 도구

llm.pdf: PDF 파일에서 대규모 언어 모델을 실행하는 실험 프로젝트

관련 문서

심층 연구 보고서 생성을 위한 Claude의 MCP 서비스

GPT 연구원: 로컬 및 웹 기반 데이터를 사용하여 포괄적이고 상세한 연구 보고서 생성

GroundX: 환상 없는 실제 데이터에 기반한 RAG(검색 증강) API 구축

Petals: 대규모 언어 모델의 분산 공유 GPU 실행 및 미세 조정, BitTorrent 네트워크와 같은 GPU 리소스 공유

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사