PDF Craft: PDF 스캔 문서를 마크다운 오픈 소스 도구로 변환하기

84.5K 00

일반 소개

PDF Craft는 책의 PDF를 스캔하고 마크다운 형식으로 변환하기 위해 설계된 오픈 소스 도구입니다. oomol-lab에서 개발했으며 전자책을 정리하고 싶어하는 사용자를 위해 GitHub에서 호스팅됩니다. 이 도구는 로컬 AI 모델을 통해 실행되며 인터넷 연결이 필요하지 않으므로 개인 정보를 보호하고 작동이 용이합니다. 스캔한 문서에서 본문 텍스트를 추출하고 머리글과 바닥글과 같은 기타 항목을 제거한 후 깔끔한 마크다운 파일을 생성하므로 오래된 책이나 연구 자료를 정리하는 데 특히 적합합니다.

기능 목록

기본 처리 지원으로 스캔한 책 PDF를 마크다운 형식으로 변환하세요.
본문 콘텐츠를 추출하고 머리글, 바닥글, 페이지 번호를 자동으로 필터링합니다.
여러 페이지에 걸쳐 텍스트를 처리하고 문장의 일관성을 유지하세요.
마크다운 파일에 포함된 일러스트레이션과 표 스크린샷을 지원합니다.
AI를 사용하여 페이지 레이아웃을 분석하고 텍스트를 읽기 순서대로 정리하세요.
EPUB 형식으로 확장하여 전자책 파일을 생성할 수 있습니다.

도움말 사용

PDF Craft는 PDF에서 마크다운으로 책을 스캔하는 데 중점을 두며, 빠르게 시작하는 데 도움이 되는 자세한 설치 및 사용 단계는 다음과 같습니다.

설치 프로세스

환경 준비하기
Python 3.8 이상이 설치된 컴퓨터가 필요합니다. 하드 드라이브에 AI 모델을 저장할 수 있는 충분한 공간이 있는지 확인하세요.
코드 다운로드
터미널을 열고 프로젝트 복제 명령을 입력합니다:

git clone https://github.com/oomol-lab/pdf-craft.git

그런 다음 카탈로그로 이동합니다:

cd pdf-craft

종속성 설치
다음 명령을 입력하여 필요한 라이브러리를 설치합니다:

pip install -r requirements.txt

GPU가 있는 경우 CUDA 지원을 추가할 수 있습니다:

pip install torch --extra-index-url https://download.pytorch.org/whl/cu117

모델 가져오기
처음 실행하면 도구가 자동으로 AI 모델(예: DocLayout-YOLO)을 다운로드합니다. 네트워크를 계속 열어두면 모델이 다음 위치에 저장됩니다. <model_dir_path>(코드에서 설정 가능).

워크플로

마크다운으로 변환

PDF 준비
스캔한 책 PDF를 다음과 같은 폴더에 넣습니다. /path/to/pdf/book.pdf.
런타임 변환
터미널에 다음 코드를 입력합니다:

from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)

device="cpu": CPU에서 실행됩니다. GPU 지원은 다음과 같습니다. device="cuda:0".
markdown_path출력 마크다운 파일 경로.
image_dir저장된 일러스트레이션 카탈로그.

결과 보기
완료되면 /path/to/output.md 콘텐츠를 확인합니다. 일러스트레이션은 자동으로 images 폴더.

주요 기능 작동

텍스트 추출
이 도구는 스캔한 페이지를 인식해 머리글과 바닥글을 없애고 본문 텍스트만 유지합니다. 불필요한 부분을 수동으로 정리할 필요가 없습니다.
페이지 간 처리
페이지 나누기로 인해 문장이 잘린 경우 PDF Craft는 자동으로 문장을 연결하여 텍스트가 원활하게 흐르도록 합니다.
일러스트레이션 임베딩
스캔한 책의 이미지나 표는 스크린샷을 찍어 마크다운에 삽입됩니다. images 폴더에서 찾을 수 있습니다.

팁

PDF 스캔 품질이 선명해야 하며, 그렇지 않으면 인식이 잘못될 수 있습니다.
처음 실행하면 모델이 다운로드되고 그 이후에는 오프라인에서 사용할 수 있습니다.
속도가 느리다면 GPU 가속을 사용하거나 페이지 수를 줄여 보세요.

애플리케이션 시나리오

오래된 책 정리하기
편집을 위해 마크다운으로 변환하고 싶은 오래된 책을 스캔한 PDF가 있다면 PDF Craft로 군더더기를 제거하고 깔끔한 파일을 만들 수 있습니다.
연구 데이터 변환
학자들은 스캔한 논문을 마크다운으로 변환해 메모를 해야 합니다. 이 도구는 텍스트와 일러스트를 보존하여 쉽게 인용할 수 있도록 해줍니다.
전자책 제작
스캔한 PDF를 편집 가능한 마크다운 문서로 바꾸고 싶을 때 PDF Craft는 간단한 솔루션을 제공합니다.

QA

PDF 스캔만 지원하나요?
주로 스캔한 책 PDF에 최적화되어 있습니다. 일반 텍스트 PDF도 작동하지만 스캔한 문서만큼 좋은 결과를 얻지 못할 수 있습니다.
변환 후 이미지로 무엇을 하나요?
이미지는 지정된 폴더에 스크린샷으로 저장되며 링크는 자동으로 마크다운에 삽입됩니다.
첫 번째 실행이 느린 이유는 무엇인가요?
AI 모델을 다운로드해야 하기 때문입니다. 그 후에는 더 빨라집니다.