일반 소개
Abogen은 ePub, PDF 또는 일반 텍스트 파일을 고품질 오디오로 빠르게 변환하도록 설계된 오픈 소스 도구입니다. Kokoro-82M 모델을 사용하여 자연스럽고 부드러운 음성을 생성하고 동시 자막 생성을 지원하므로 오디오북, 비디오 더빙 또는 학습 보조 도구에 적합합니다. 사용자는 여러 언어와 남성 및 여성 음성을 선택하고, 자막의 세분성을 조정하고, 다양한 음성 모델을 혼합하여 독특한 음향 효과를 만들 수 있으며, Abogen은 WAV, FLAC, MP3 및 M4B와 같은 오디오 형식을 지원하며 사용하기 쉽고 Windows, Linux 및 macOS와 호환됩니다.

기능 목록
- ePub, PDF, TXT 파일 입력 및 자동 텍스트 추출을 지원합니다.
- Kokoro-82M 모델을 사용하여 고품질의 자연스러운 음성을 생성합니다.
- 미국 영어, 영국 영어 등 다양한 언어와 남성 및 여성 음성 옵션을 사용할 수 있습니다.
- 문장, 단어 또는 사용자 지정 세부 단위로 세분화하여 자막 생성을 지원합니다.
- 다양한 음성 모델을 혼합하여 개인화된 음성을 만들 수 있습니다.
- 출력 오디오 형식에는 WAV, FLAC, MP3 및 M4B(챕터 지원)가 포함됩니다.
- 텍스트 편집기가 내장되어 있어 직접 텍스트를 쉽게 입력하거나 수정할 수 있습니다.
- 설치 및 운영을 간소화하기 위해 Docker 배포를 지원합니다.
- 데스크톱 또는 사용자 지정 폴더 등 출력 파일을 저장할 위치를 선택합니다.
도움말 사용
설치 프로세스
Abogen을 설치하려면 Python 환경과 espeak-ng을 비롯한 여러 종속성이 필요합니다. 자세한 단계는 다음과 같습니다:
1. espeak-ng 설치
- 운영 체제용 사본을 다운로드하려면 espeak-ng의 최신 릴리스 페이지를 방문하세요.
.msi
파일(Windows)을 다운로드하거나 패키지 관리자(Linux/macOS)를 통해 설치합니다. - Windows 사용자: 다운로드한
.msi
파일을 열고 지시에 따라 설치를 완료합니다. - Linux 사용자: 명령 실행
sudo apt-get install espeak-ng
(우분투/데비안) 또는sudo yum install espeak-ng
(CentOS). - macOS 사용자: 홈브루로 실행
brew install espeak-ng
.
2. Python 및 PyTorch 설치하기
- 시스템에 Python 3.8 이상이 설치되어 있는지 확인합니다.
- PyTorch를 설치합니다(GPU 가속을 위해 NVIDIA GPU를 권장합니다):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
- NVIDIA GPU가 없는 경우 다음 명령을 실행하여 CPU 버전을 설치하세요:
pip install torch torchvision torchaudio
3. Abogen 설치
- 다음 명령을 실행하여 Abogen을 설치합니다:
pip install abogen
- 설치가 완료되면 다음을 실행합니다.
abogen
명령은 그래픽 인터페이스(GUI)를 시작합니다.
4. 도커 사용(선택 사항)
- Docker를 통해 Abogen을 실행하려는 경우 종속성 관리를 간소화할 수 있습니다:
- Docker가 설치되어 있는지 확인합니다.
- Abogen 리포지토리 복제:
git clone https://github.com/denizsafak/abogen.git cd abogen
- Docker 이미지를 빌드합니다:
docker build --progress plain -t abogen .
- Docker 컨테이너를 실행합니다:
- Windows:
docker run --name abogen -v %CD%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
- Linux:
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
- macOS:
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen
- Windows:
- 아보젠을 방문하세요:
- 브라우저를 통한 액세스
http://localhost:5800
. - 또는 VNC 클라이언트를 사용하여 연결
localhost:5900
.
- 브라우저를 통한 액세스
주요 기능
1. 텍스트를 오디오로 변환하기
- Abogen을 시작하면 그래픽 인터페이스가 열립니다.
- '파일 선택' 버튼을 클릭하여 ePub, PDF 또는 TXT 파일을 업로드하거나 내장된 텍스트 편집기를 사용하여 텍스트를 입력합니다.
- 언어 및 음성 선택(예
a_m
미국 영어 남성 목소리를 나타냅니다.b_f
(영국 영어 여성 목소리를 나타냅니다). - 자막 옵션 구성: "문장", "문장 + 쉼표"를 선택하거나 단어 수(예: 1단어, 2단어)로 분할합니다.
- 생성 버튼을 클릭하고 처리가 완료될 때까지 기다립니다. 처리 시간은 파일 크기와 하드웨어 성능에 따라 다릅니다(예: RTX 2060에서 3000자 텍스트의 경우 약 11초가 소요됨).
2. 맞춤형 음성
- 음성 믹서에서 다양한 음성 모델의 비율을 조정하여 독특한 음향 효과를 만들 수 있습니다.
- 믹스 구성을 '음성 프로필'로 저장하여 쉽게 재사용할 수 있습니다.
- 음성 효과 테스트: '미리보기' 버튼을 클릭하여 생성된 사운드 클립을 들어보세요.
3. 출력 설정
- 오디오 형식 선택: WAV(무손실), FLAC(압축 무손실), MP3(범용) 또는 M4B(챕터가 지원되는 오디오북 형식).
- 저장 위치 설정: '데스크톱에 저장', '입력 파일 옆에 저장' 또는 사용자 지정 폴더를 선택합니다.
- 자막이 필요한 경우 '자막 생성'을 체크하고 출력 형식(예: SRT)을 선택합니다.
4. 명령줄 모드
- 그래픽 인터페이스에 문제가 있는 경우 명령줄에서 실행할 수 있습니다:
abogen --cli
- 명령줄 모드에서는 자세한 오류 메시지가 표시되므로 쉽게 문제를 해결할 수 있습니다.
주의
- 입력 파일의 형식이 올바른지 확인하세요. PDF 파일은 복잡한 레이아웃으로 인해 텍스트 추출이 불완전할 수 있습니다.
- 빠른 처리를 위해 GPU 가속을 권장하며, CPU 처리는 느려질 수 있습니다.
- 문제가 발생하면 GitHub의 이슈 페이지를 확인하거나 새 이슈를 제출하여 도움을 요청하세요.
애플리케이션 시나리오
- 오디오북 제작
사용자는 소설, 교과서 또는 문서를 오디오북으로 변환하여 출퇴근이나 운동 중에 쉽게 들을 수 있으며, Abogen의 M4B 출력은 긴 콘텐츠를 위한 챕터 분할을 지원합니다. - 비디오 더빙
콘텐츠 제작자는 동기화된 자막을 사용하여 YouTube, TikTok 또는 Instagram 동영상에 자연스러운 보이스오버를 생성하여 동영상의 전문성을 높일 수 있습니다. - 학습 지원
학생들은 PDF 교과서나 유인물을 오디오로 변환하고 자막과 결합하여 언어 학습자나 시각 장애인에게 적합한 듣기 및 학습을 지원할 수 있습니다. - 팟캐스트 제작
팟캐스트 제작자는 스크립트를 오디오로 변환하고, 오디션 클립을 빠르게 생성하고, 쇼의 주제에 맞게 음성 스타일을 조정할 수 있습니다.
QA
- Abogen은 어떤 파일 형식을 지원하나요?
Abogen은 ePub, PDF, TXT 파일을 입력으로 지원하며, WAV, FLAC, MP3, M4B 등의 오디오 포맷과 SRT 형식의 자막을 출력합니다. - 텍스트 추출의 정확도를 높이려면 어떻게 해야 하나요?
PDF 파일의 경우 레이아웃이 단순한 문서를 사용하는 것이 좋습니다. 추출이 정확하지 않은 경우 입력하기 전에 PDF를 TXT 파일로 변환할 수 있습니다. - Abogen을 실행하려면 GPU가 필요한가요?
필수는 아니지만 NVIDIA GPU를 사용하면 처리 속도가 크게 빨라질 수 있습니다. CPU도 작동하지만 속도가 느립니다. - 코드를 기여하거나 문제를 신고하려면 어떻게 하나요?
GitHub 리포지토리를 방문하여 풀 리퀘스트를 제출하여 코드를 기여하거나 이슈 페이지에서 자세한 오류 정보와 함께 이슈를 신고하세요.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...