MarkPDFDown: 멀티모달 모델을 기반으로 PDF를 마크다운으로 변환하기

57.6K 00

일반 소개

마크다운은 오픈 소스 도구입니다. 이 도구는 멀티모달 빅 언어 모델을 사용하여 PDF 파일을 마크다운 형식으로 변환합니다. 이 도구의 목표는 간단합니다. PDF 문서를 더 쉽게 편집하고 공유할 수 있도록 하는 것입니다. 이 도구는 문서의 제목, 목록, 표 및 기타 구조를 인식하여 깔끔한 형식의 마크다운 파일을 생성합니다. 이 프로젝트는 Python으로 작성되었으며 PDF 파일을 처리하고 텍스트 형식으로 변환해야 하는 사용자에게 적합합니다. 현재 버전은 OpenAI의 API에 의존해야 하며, 사용자는 자체 API 키를 준비해야 합니다. 마크다운 오픈 소스 코드는 GitHub에서 확인할 수 있으며, 개선에 참여할 수 있습니다.

기능 목록

문서 구조를 유지하면서 PDF 파일을 마크다운 형식으로 변환하세요.
제목, 단락, 목록, 표 및 기타 요소 인식 지원.
멀티모달 매크로 모델을 통해 PDF 콘텐츠를 이해하면 정확한 변환 결과를 얻을 수 있습니다.
명령줄 작업, PDF 파일 일괄 처리 지원 기능을 제공합니다.
오픈 소스이며 무료로 제공되므로 사용자는 코드를 커스터마이징할 수 있습니다.

도움말 사용

마크다운은 명령줄 도구로, 이를 사용하려면 컴퓨터에 환경을 설치 및 구성해야 합니다. 아래는 초보자도 쉽게 시작할 수 있는 자세한 설치 및 작동 단계입니다.

설치 프로세스

환경 준비하기
Python 3.9가 설치된 컴퓨터가 필요합니다. 그렇지 않은 경우 먼저 Python을 다운로드하여 설치하세요.
터미널을 열고 다음 명령을 입력하여 가상 환경을 만듭니다:

conda create -n markpdfdown python=3.9

그런 다음 환경을 활성화합니다:

conda activate markpdfdown

코드 다운로드
터미널에 명령을 입력하여 MarkPDFDown의 GitHub 리포지토리를 복제합니다:

git clone https://github.com/jorben/markpdfdown.git

프로젝트 폴더로 이동합니다:

cd markpdfdown

종속성 설치
이 프로젝트에는 일부 Python 라이브러리 지원이 필요합니다. 다음 명령을 실행하여 설치하세요:

pip install -r requirements.txt

API 키 구성
마크다운은 OpenAI의 멀티모달 모델을 사용하며 API 키가 필요합니다. 먼저 OpenAI 웹사이트로 이동하여 계정을 등록하고 키를 받으세요.
터미널에서 키를 설정합니다:

export OPENAI_API_KEY=<你的API密钥>

모델 또는 API 주소를 변경하려면 다시 설정하면 됩니다:

export OPENAI_DEFAULT_MODEL=<你的模型名>
export OPENAI_API_BASE=<你的API地址>

설치 확인
가져오기 python main.py --help도움말 메시지가 표시되면 설치에 성공한 것입니다.

사용 방법

설치가 완료되면 마크다운의 작동은 매우 간단하며, 주로 명령줄을 통해 이루어집니다. 구체적인 단계는 다음과 같습니다.

전체 PDF 파일 변환

다음과 같은 PDF 파일이 있다고 가정해 보겠습니다. tests/input.pdf마크다운 파일로 변환하려면 다음과 같이 하세요. output.md. 터미널에 입력합니다:

python main.py < tests/input.pdf > output.md

실행 후output.md 변환된 마크다운 콘텐츠가 현재 폴더에 표시됩니다.

PDF의 특정 페이지 변환

2~5페이지와 같은 특정 페이지만 변환하려면 입력합니다:

python main.py 2 5 < tests/input.pdf > output.md

첫 번째 숫자는 시작 페이지이고 두 번째 숫자는 끝 페이지입니다. 페이지 번호는 1부터 카운트됩니다.

Docker로 실행하기

Python 환경을 설치하고 싶지 않으신가요? 컴퓨터에 Docker가 설치되어 있는지 확인하고 실행하세요:

docker run -i -e OPENAI_API_KEY=<你的API密钥> jorben/markpdfdown < tests/input.pdf > output.md

이렇게 하면 Docker 컨테이너를 통해 파일을 직접 변환합니다.

기능

핵심 기능: PDF를 마크다운으로 변환
PDF 파일을 명령줄 창으로 드래그하거나 파일 경로를 직접 입력하면 도구가 자동으로 콘텐츠를 분석합니다. 제목은 다음과 같이 변경됩니다. #및## 등, 목록은 다음과 같이 구성됩니다. - 은 테이블로 표시되며, 테이블은 마크다운 테이블 형식으로 출력됩니다.
예를 들어 제목이 '소개'이고 본문이 '내용입니다'인 PDF를 변환할 수 있습니다:

# 简介
这是内容

배치 파일
PDF 파일이 많은 경우 스크립트를 작성하여 반복적으로 명령을 호출할 수 있습니다. 예를 들어 Linux에서:

for file in *.pdf; do python main.py < "$file" > "${file%.pdf}.md"; done

디버깅 및 개선
전환 결과가 만족스럽지 않나요? GitHub에서 질문하거나 직접 코드를 변경하세요. 이 프로젝트는 파이썬으로 작성되었으며, 로직은 모두 main.py Mile.

주의

파일 경로에 한자가 포함되어서는 안 되며, 그렇지 않으면 오류가 보고될 수 있습니다.
API 키는 비밀로 유지해야 하며 다른 사람에게 공개해서는 안 됩니다.
대용량 파일은 처리하는 데 시간이 더 걸릴 수 있으므로 안정적인 네트워크가 보장되어야 합니다.

애플리케이션 시나리오

학술 연구
학생이나 연구자들은 쉽게 메모하거나 공유할 수 있도록 논문 PDF를 마크다운으로 변환해야 하는 경우가 많은데, 마크다운은 제목과 표 등 논문의 구조를 보존하여 마크다운에서 직접 편집할 수 있습니다.
문서
회사에는 마크다운 아카이브로 변환하고 싶은 PDF 지침이나 보고서가 많이 있습니다. 이 도구를 사용하여 일괄 변환한 다음 GitHub 또는 Notion에 업로드할 수 있습니다.
기술 문서 작성
기술 블로그를 작성할 때는 PDF 자료를 인용해야 합니다. 직접 변환하여 마크다운 편집기에 붙여넣으면 수동으로 분류해야 하는 수고를 덜 수 있습니다.

QA

네트워크가 필요한가요?
예. 이 도구는 OpenAI의 API에 의존하며 작동하려면 네트워크에 연결되어 있어야 합니다.
중국어 PDF를 지원하나요?
지원. PDF가 스캔한 이미지가 아닌 텍스트 형식이면 중국어 콘텐츠를 제대로 변환할 수 있습니다.
변환 오류가 발생하면 어떻게 하나요?
API 키가 올바른지 또는 PDF 파일이 손상되었는지 확인합니다. 그래도 문제가 해결되지 않으면 GitHub로 이동하여 문제를 제기하세요.
오프라인에서도 사용할 수 있나요?
지금은 아닙니다. 향후 로컬 모델이 지원될 수 있지만 지금은 OpenAI의 서비스를 사용해야 합니다.