PDF Craft: PDF 스캔 문서를 마크다운 오픈 소스 도구로 변환하기

최신 AI 리소스12개월 전에 게시됨 AI 공유 서클
71.4K 00
堆友AI

일반 소개

PDF Craft는 책의 PDF를 스캔하고 마크다운 형식으로 변환하기 위해 설계된 오픈 소스 도구입니다. oomol-lab에서 개발했으며 전자책을 정리하고 싶어하는 사용자를 위해 GitHub에서 호스팅됩니다. 이 도구는 로컬 AI 모델을 통해 실행되며 인터넷 연결이 필요하지 않으므로 개인 정보를 보호하고 작동이 용이합니다. 스캔한 문서에서 본문 텍스트를 추출하고 머리글과 바닥글과 같은 기타 항목을 제거한 후 깔끔한 마크다운 파일을 생성하므로 오래된 책이나 연구 자료를 정리하는 데 특히 적합합니다.

PDF Craft:PDF扫描文件转Markdown的开源工具

 

기능 목록

  • 기본 처리 지원으로 스캔한 책 PDF를 마크다운 형식으로 변환하세요.
  • 본문 콘텐츠를 추출하고 머리글, 바닥글, 페이지 번호를 자동으로 필터링합니다.
  • 여러 페이지에 걸쳐 텍스트를 처리하고 문장의 일관성을 유지하세요.
  • 마크다운 파일에 포함된 일러스트레이션과 표 스크린샷을 지원합니다.
  • AI를 사용하여 페이지 레이아웃을 분석하고 텍스트를 읽기 순서대로 정리하세요.
  • EPUB 형식으로 확장하여 전자책 파일을 생성할 수 있습니다.

 

도움말 사용

PDF Craft는 PDF에서 마크다운으로 책을 스캔하는 데 중점을 두며, 빠르게 시작하는 데 도움이 되는 자세한 설치 및 사용 단계는 다음과 같습니다.

설치 프로세스

  1. 환경 준비하기
    Python 3.8 이상이 설치된 컴퓨터가 필요합니다. 하드 드라이브에 AI 모델을 저장할 수 있는 충분한 공간이 있는지 확인하세요.
  2. 코드 다운로드
    터미널을 열고 프로젝트 복제 명령을 입력합니다:
git clone https://github.com/oomol-lab/pdf-craft.git

그런 다음 카탈로그로 이동합니다:

cd pdf-craft
  1. 종속성 설치
    다음 명령을 입력하여 필요한 라이브러리를 설치합니다:
pip install -r requirements.txt

GPU가 있는 경우 CUDA 지원을 추가할 수 있습니다:

pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
  1. 모델 가져오기
    처음 실행하면 도구가 자동으로 AI 모델(예: DocLayout-YOLO)을 다운로드합니다. 네트워크를 계속 열어두면 모델이 다음 위치에 저장됩니다. <model_dir_path>(코드에서 설정 가능).

워크플로

마크다운으로 변환

  1. PDF 준비
    스캔한 책 PDF를 다음과 같은 폴더에 넣습니다. /path/to/pdf/book.pdf.
  2. 런타임 변환
    터미널에 다음 코드를 입력합니다:
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
  • device="cpu": CPU에서 실행됩니다. GPU 지원은 다음과 같습니다. device="cuda:0".
  • markdown_path출력 마크다운 파일 경로.
  • image_dir저장된 일러스트레이션 카탈로그.
  1. 결과 보기
    완료되면 /path/to/output.md 콘텐츠를 확인합니다. 일러스트레이션은 자동으로 images 폴더.

주요 기능 작동

  • 텍스트 추출
    이 도구는 스캔한 페이지를 인식해 머리글과 바닥글을 없애고 본문 텍스트만 유지합니다. 불필요한 부분을 수동으로 정리할 필요가 없습니다.
  • 페이지 간 처리
    페이지 나누기로 인해 문장이 잘린 경우 PDF Craft는 자동으로 문장을 연결하여 텍스트가 원활하게 흐르도록 합니다.
  • 일러스트레이션 임베딩
    스캔한 책의 이미지나 표는 스크린샷을 찍어 마크다운에 삽입됩니다. images 폴더에서 찾을 수 있습니다.

  • PDF 스캔 품질이 선명해야 하며, 그렇지 않으면 인식이 잘못될 수 있습니다.
  • 처음 실행하면 모델이 다운로드되고 그 이후에는 오프라인에서 사용할 수 있습니다.
  • 속도가 느리다면 GPU 가속을 사용하거나 페이지 수를 줄여 보세요.

 

애플리케이션 시나리오

  1. 오래된 책 정리하기
    편집을 위해 마크다운으로 변환하고 싶은 오래된 책을 스캔한 PDF가 있다면 PDF Craft로 군더더기를 제거하고 깔끔한 파일을 만들 수 있습니다.
  2. 연구 데이터 변환
    학자들은 스캔한 논문을 마크다운으로 변환해 메모를 해야 합니다. 이 도구는 텍스트와 일러스트를 보존하여 쉽게 인용할 수 있도록 해줍니다.
  3. 전자책 제작
    스캔한 PDF를 편집 가능한 마크다운 문서로 바꾸고 싶을 때 PDF Craft는 간단한 솔루션을 제공합니다.

 

QA

  1. PDF 스캔만 지원하나요?
    주로 스캔한 책 PDF에 최적화되어 있습니다. 일반 텍스트 PDF도 작동하지만 스캔한 문서만큼 좋은 결과를 얻지 못할 수 있습니다.
  2. 변환 후 이미지로 무엇을 하나요?
    이미지는 지정된 폴더에 스크린샷으로 저장되며 링크는 자동으로 마크다운에 삽입됩니다.
  3. 첫 번째 실행이 느린 이유는 무엇인가요?
    AI 모델을 다운로드해야 하기 때문입니다. 그 후에는 더 빨라집니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...