PDF2Audio: PDF를 오디오로 변환하는 도구, PDF를 팟캐스트로 변환하는 도구

61.9K 00

일반 소개

PDF2Audio는 PDF 파일을 팟캐스트, 강의, 요약과 같은 오디오 콘텐츠로 변환하도록 설계된 오픈 소스 프로젝트입니다. 이 도구는 텍스트 생성 및 텍스트 음성 변환을 위해 OpenAI의 GPT 모델을 활용하여 사용자가 여러 PDF 파일을 업로드하고, 다양한 지침 템플릿(예: 팟캐스트, 강의, 요약 등)을 선택하고, 텍스트 생성 및 오디오 모델을 사용자 지정할 수 있습니다. pdf2Audio는 다양한 음성 옵션을 제공하며 사용자가 초안을 편집하고 피드백을 제공하여 오디오 콘텐츠를 반복적으로 개선할 수 있도록 합니다.

기능 목록

여러 PDF 파일 업로드
다양한 강의 템플릿(팟캐스트, 강의, 요약 등)을 선택합니다.
사용자 지정 텍스트 생성 및 오디오 모델링
다른 음성 선택
초안을 편집하고 피드백을 제공하여 오디오 콘텐츠를 반복적으로 개선하세요.
로컬 설치 및 사용 지원

PDF2Audio 인터페이스

PDF2Audio 인터페이스는 매우 간단하며 단계는 다음과 같습니다:

1. 하나 이상의 PDF 파일을 업로드합니다.
2. 원하는 인스트럭션 템플릿을 선택합니다.

3. 필요한 경우 사용자 지정 지침 템플릿
4. '오디오 생성' 버튼을 클릭하여 오디오 콘텐츠를 생성합니다.

도움말 사용

온라인 경험

https://huggingface.co/spaces/lamm-mit/PDF2Audio

https://colab.research.google.com/github/lamm-mit/PDF2Audio/blob/main/PDF2Audio.ipynb

로컬 설치 프로세스

클론 창고터미널에서 다음 명령을 실행하여 PDF2Audio 리포지토리를 복제합니다:
```
git clone https://github.com/lamm-mit/PDF2Audio.git
cd PDF2Audio
```
미니콘다 설치미니콘다가 아직 설치되어 있지 않은 경우 미니콘다 웹사이트에서 설치 프로그램을 다운로드하고 운영 체제에 맞는 설치 지침을 따르세요. 설치가 성공적으로 완료되었는지 확인합니다:
```
conda --version
```
콘다 환경 만들기터미널에서 다음 명령을 실행하여 새 Conda 환경을 만듭니다:
```
conda create -n pdf2audio python=3.9
conda activate pdf2audio
```
종속성 설치터미널에서 다음 명령을 실행하여 필요한 종속성을 설치합니다:
```
pip install -r requirements.txt
```
OpenAI API 키 설정만들기 .env 파일을 열고 OpenAI API 키를 추가합니다:
```
OPENAI_API_KEY=your_api_key_here
```

사용 프로세스

애플리케이션 실행프로젝트 디렉토리에 있고 Conda 환경이 활성화되어 있는지 확인합니다:
```
conda activate pdf2audio
python app.py
```
브라우저 열기터미널에 URL이 제공되며, 보통은 http://localhost:7860URL이 브라우저에서 열려 있으면 해당 URL이 브라우저에서 열립니다.
PDF 파일 업로드Gradio 인터페이스를 사용하여 하나 이상의 PDF 파일을 업로드합니다.
명령 템플릿 선택하기: 원하는 강의 템플릿(예: 팟캐스트, 강의, 요약 등)을 선택합니다.
사용자 지정 명령: 필요에 따라 지침을 사용자 지정합니다.
오디오 생성: '오디오 생성' 버튼을 클릭하여 오디오 콘텐츠를 만듭니다.