PDF Craft: PDF 스캔 문서를 마크다운 오픈 소스 도구로 변환하기

최신 AI 리소스5개월 전에 게시 됨 AI 공유 서클
12.6K 00

일반 소개

PDF Craft는 책의 PDF를 스캔하고 마크다운 형식으로 변환하기 위해 설계된 오픈 소스 도구입니다. oomol-lab에서 개발했으며 전자책을 정리하고 싶어하는 사용자를 위해 GitHub에서 호스팅됩니다. 이 도구는 로컬 AI 모델을 통해 실행되며 인터넷 연결이 필요하지 않으므로 개인 정보를 보호하고 작동이 용이합니다. 스캔한 문서에서 본문 텍스트를 추출하고 머리글과 바닥글과 같은 기타 항목을 제거한 후 깔끔한 마크다운 파일을 생성하므로 오래된 책이나 연구 자료를 정리하는 데 특히 적합합니다.

PDF Craft:PDF扫描文件转Markdown的开源工具

 

기능 목록

  • 기본 처리 지원으로 스캔한 책 PDF를 마크다운 형식으로 변환하세요.
  • 본문 콘텐츠를 추출하고 머리글, 바닥글, 페이지 번호를 자동으로 필터링합니다.
  • 여러 페이지에 걸쳐 텍스트를 처리하고 문장의 일관성을 유지하세요.
  • 마크다운 파일에 포함된 일러스트레이션과 표 스크린샷을 지원합니다.
  • AI를 사용하여 페이지 레이아웃을 분석하고 텍스트를 읽기 순서대로 정리하세요.
  • EPUB 형식으로 확장하여 전자책 파일을 생성할 수 있습니다.

 

도움말 사용

PDF Craft는 PDF에서 마크다운으로 책을 스캔하는 데 중점을 두며, 빠르게 시작하는 데 도움이 되는 자세한 설치 및 사용 단계는 다음과 같습니다.

설치 프로세스

  1. 환경 준비하기
    Python 3.8 이상이 설치된 컴퓨터가 필요합니다. 하드 드라이브에 AI 모델을 저장할 수 있는 충분한 공간이 있는지 확인하세요.
  2. 코드 다운로드
    터미널을 열고 프로젝트 복제 명령을 입력합니다:
git clone https://github.com/oomol-lab/pdf-craft.git

그런 다음 카탈로그로 이동합니다:

cd pdf-craft
  1. 종속성 설치
    다음 명령을 입력하여 필요한 라이브러리를 설치합니다:
pip install -r requirements.txt

GPU가 있는 경우 CUDA 지원을 추가할 수 있습니다:

pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
  1. 모델 가져오기
    처음 실행하면 도구가 자동으로 AI 모델(예: DocLayout-YOLO)을 다운로드합니다. 네트워크를 계속 열어두면 모델이 다음 위치에 저장됩니다. <model_dir_path>(코드에서 설정 가능).

워크플로

마크다운으로 변환

  1. PDF 준비
    스캔한 책 PDF를 다음과 같은 폴더에 넣습니다. /path/to/pdf/book.pdf.
  2. 런타임 변환
    터미널에 다음 코드를 입력합니다:
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
  • device="cpu": CPU에서 실행됩니다. GPU 지원은 다음과 같습니다. device="cuda:0".
  • markdown_path출력 마크다운 파일 경로.
  • image_dir저장된 일러스트레이션 카탈로그.
  1. 결과 보기
    완료되면 /path/to/output.md 콘텐츠를 확인합니다. 일러스트레이션은 자동으로 images 폴더.

주요 기능 작동

  • 텍스트 추출
    이 도구는 스캔한 페이지를 인식해 머리글과 바닥글을 없애고 본문 텍스트만 유지합니다. 불필요한 부분을 수동으로 정리할 필요가 없습니다.
  • 페이지 간 처리
    페이지 나누기로 인해 문장이 잘린 경우 PDF Craft는 자동으로 문장을 연결하여 텍스트가 원활하게 흐르도록 합니다.
  • 일러스트레이션 임베딩
    스캔한 책의 이미지나 표는 스크린샷을 찍어 마크다운에 삽입됩니다. images 폴더에서 찾을 수 있습니다.

  • PDF 스캔 품질이 선명해야 하며, 그렇지 않으면 인식이 잘못될 수 있습니다.
  • 처음 실행하면 모델이 다운로드되고 그 이후에는 오프라인에서 사용할 수 있습니다.
  • 속도가 느리다면 GPU 가속을 사용하거나 페이지 수를 줄여 보세요.

 

애플리케이션 시나리오

  1. 오래된 책 정리하기
    편집을 위해 마크다운으로 변환하고 싶은 오래된 책을 스캔한 PDF가 있다면 PDF Craft로 군더더기를 제거하고 깔끔한 파일을 만들 수 있습니다.
  2. 연구 데이터 변환
    학자들은 스캔한 논문을 마크다운으로 변환해 메모를 해야 합니다. 이 도구는 텍스트와 일러스트를 보존하여 쉽게 인용할 수 있도록 해줍니다.
  3. 전자책 제작
    스캔한 PDF를 편집 가능한 마크다운 문서로 바꾸고 싶을 때 PDF Craft는 간단한 솔루션을 제공합니다.

 

QA

  1. PDF 스캔만 지원하나요?
    주로 스캔한 책 PDF에 최적화되어 있습니다. 일반 텍스트 PDF도 작동하지만 스캔한 문서만큼 좋은 결과를 얻지 못할 수 있습니다.
  2. 변환 후 이미지로 무엇을 하나요?
    이미지는 지정된 폴더에 스크린샷으로 저장되며 링크는 자동으로 마크다운에 삽입됩니다.
  3. 첫 번째 실행이 느린 이유는 무엇인가요?
    AI 모델을 다운로드해야 하기 때문입니다. 그 후에는 더 빨라집니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...