마커: PDF를 마크다운 오픈 소스 도구로 빠르게 변환하기

최신 AI 리소스6개월 전 업데이트 AI 공유 서클
19.5K 00

일반 소개

마커는 PDF 파일을 빠르고 정확하게 마크다운 형식으로 변환하도록 설계된 딥러닝 기반 문서 처리 도구입니다. 다양한 문서 유형을 지원하며 특히 책과 과학 논문 변환에 최적화되어 있으며, 머리글과 바닥글과 같은 중복 콘텐츠를 제거하고 표와 코드 블록의 서식을 지정하며 이미지를 추출하여 저장할 수 있습니다. 또한 대부분의 수식을 LaTeX 형식으로 변환하고 GPU, CPU 또는 MPS에서 실행을 지원합니다.

 

Marker:快速将PDF转换为Markdown的开源工具

 

기능 목록

  • PDF 파일을 마크다운 형식으로 변환
  • 책과 과학 논문을 포함한 다양한 문서 유형 지원
  • 머리글 및 바닥글과 같은 과도한 콘텐츠 제거
  • 표 및 코드 블록 서식 지정
  • 이미지 추출 및 저장
  • 대부분의 방정식을 라텍스 형식으로 변환
  • GPU, CPU 및 MPS 작동 지원

 

 

도움말 사용

설치 프로세스

  1. 종속성 설치파이썬 3.6 이상이 설치되어 있고 다음 종속성이 설치되어 있는지 확인합니다:
    pip install marker-pdf
    
  2. 실행 예제::
    marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10
    

 

사용 가이드라인

 

개별 파일 변환

marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10
  • --batch_multiplier 는 여분의 VRAM이 있는 경우 기본 배치 크기의 배수입니다. 숫자가 클수록 더 많은 VRAM을 사용하지만 처리 속도는 빨라집니다. 기본 설정은 2입니다. 기본 배치 크기에는 약 3GB의 VRAM이 필요합니다.
  • --max_pages 는 처리할 최대 페이지 수입니다. 이 항목을 생략하면 전체 문서가 변환됩니다.
  • --langs 는 쉼표로 구분된 선택적 문서 언어 목록으로, 기본적으로 선택 사항이며 테서렉트를 사용하는 경우 제공해야 합니다.
  • --ocr_all_pages 는 PDF의 모든 페이지를 강제로 OCR하는 선택적 매개변수이며, 이 매개변수 또는 환경 변수 `OCR_ALL_PAGES`가 참이면 OCR이 강제로 수행됩니다.

지원되는 Surya OCR 언어 목록은 [ [다음은 다음과 같습니다.를 찾았습니다. 더 많은 언어가 필요한 경우 지원되는 언어 중 하나를 사용할 수 있습니다. OCR_ENGINE 로 설정 ocrmypdfOCR이 필요하지 않은 경우 마커는 모든 언어를 지원할 수 있습니다. OCR이 필요하지 않은 경우 마커는 모든 언어를 지원할 수 있습니다.

 

여러 파일 변환

marker /path/to/input/folder /path/to/output/folder --workers 4 --max 10 --min_length 10000
  • --workers 는 동시에 변환되는 PDF의 수입니다. 기본 설정은 1이지만 이 값을 늘리면 CPU/GPU 사용량이 증가하는 대신 처리량을 늘릴 수 있습니다. 각 작업자 프로세스는 최대 5GB, 평균 3.5GB의 VRAM을 사용합니다.
  • --max 는 변환할 PDF의 최대 개수입니다. 이 항목을 생략하면 폴더에 있는 모든 PDF가 변환됩니다.
  • --min_length 는 PDF에서 추출할 문자 수의 최소값으로, 이 값을 초과하는 PDF만 처리 대상으로 고려됩니다. 많은 PDF를 처리하는 경우 이 값을 설정하여 주로 이미지인 PDF의 OCR을 피하는 것이 좋습니다(처리 속도가 느려짐).
  • --metadata_file 는 PDF에 대한 메타데이터가 포함된 선택적 JSON 파일 경로입니다. 이 파일을 제공하면 각 PDF의 언어를 설정하는 데 사용됩니다. 언어 설정은 Surya(기본값)의 경우 선택 사항이지만 Tesseract의 경우 필수입니다. 형식은 다음과 같습니다:
{
"pdf1.pdf": {"languages": ["English"]},
"pdf2.pdf": {"languages": ["Spanish", "Russian"]},
...
}

언어 이름 또는 코드를 사용할 수 있습니다. 정확한 코드는 OCR 엔진에 따라 다릅니다. 수리아 코드의 전체 목록은 [다음은 다음과 같습니다.], 테서랙트의 경우 [다음은 다음과 같습니다.]

 

FastGPT에서 마커 환경 변수 구성하기

사용자 지정 해상도 서비스를 사용하려면 FastGPT에서 다음 환경 변수를 구성해야 합니다:

custom_read_파일_url=http://xxxx.com/v1/parse/file
CUSTOM_READ_FILE_EXTENSION=pdf

  • CUSTOM_READ_FILE_URL - 사용자 지정 확인 서비스의 액세스 주소, 호스트를 배포한 확인 서비스의 주소로 변경해야 하며 경로 경로는 변경되지 않습니다.
  • CUSTOM_READ_FILE_EXTENSION - 구문 분석에 지원되는 파일 형식 접미사를 지정하며, 여러 파일 형식은 쉼표로 구분합니다.

구문 분석 효과 확인

구문 분석 구성을 완료한 후 아래 단계에 따라 구문 분석 효과를 확인할 수 있습니다:

  1. 지식창고에서 PDF 파일을 업로드하고 업로드를 확인합니다.
  2. 시스템 로그를 봅니다(LOG_LEVEL을 정보 또는 디버그 수준으로 설정해야 합니다).
  3. 마커에서 구문 분석된 PDF 파일에 전체 이미지 링크가 포함되어 있으며, 이는 구문 분석에 성공했음을 나타냅니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...