PDF 콘텐츠를 자동으로 구문 분석하고 오픈 소스 서비스의 텍스트와 양식을 추출합니다.

최신 AI 리소스5개월 전에 게시 됨 AI 공유 서클
11.1K 00

일반 소개

PDF 문서의 레이아웃을 자동으로 분석하고 페이지의 텍스트, 제목, 이미지, 표, 수식 및 기타 요소를 식별하고 올바른 순서를 결정합니다. 이 도구는 OCR 기능을 지원하여 PDF를 검색 가능한 텍스트로 스캔할 수 있습니다. 이 도구는 Docker에서 실행되며 시각적 모델(비전 그리드 트랜스포머 또는 VGT)과 LightGBM 모델의 두 가지 모델을 제공합니다. 전자는 매우 정확하지만 리소스를 많이 소비하고, 후자는 빠르고 리소스를 절약합니다. 현재 버전은 v0.0.21로 GitHub에서 무료로 공개되어 있으며 PDF를 처리해야 하는 연구자, 아키비스트 등에게 적합합니다.

自动解析PDF内容并提取文字与表格的开源服务

 

기능 목록

  • PDF 페이지의 텍스트, 제목, 이미지, 표, 수식 및 기타 요소를 자동으로 식별합니다.
  • 스캔한 PDF를 검색 가능한 텍스트로 변환하는 OCR 기능을 지원합니다.
  • 페이지 요소의 올바른 읽기 순서를 결정합니다.
  • 시각적 모델(VGT)과 LightGBM 모델의 두 가지 분석 모드가 제공됩니다.
  • 표를 추출하고 마크다운, 라텍스, HTML 등 다양한 출력 형식을 지원합니다.
  • 수식을 추출하고 기본적으로 LaTeX 형식을 출력합니다.
  • 영어, 한국어 등 다국어 OCR을 지원합니다.
  • 다른 프로젝트에 통합할 수 있는 API 인터페이스를 제공합니다.
  • 시각적 출력을 지원하여 주석이 포함된 PDF를 생성합니다.

 

도움말 사용

설치 프로세스

이 도구는 Docker와 함께 실행되며 설치 단계는 다음과 같습니다:

  1. 환경 준비하기
    먼저 도커를 설치합니다. 도커 웹사이트로 이동하여 도커를 다운로드하여 설치합니다. 설치 후 터미널을 입력합니다:
docker --version

버전 번호가 표시되면 성공한 것입니다. GPU를 사용하는 경우 NVIDIA 컨테이너 툴킷도 설치해야 합니다.설치 가이드.

  1. 거울 당기기
    터미널에 명령을 입력하여 도구 이미지를 가져옵니다:
  • GPU가 있습니다:
    docker pull huridocs/pdf-document-layout-analysis:v0.0.21
    
  • GPU 없음:
    docker pull huridocs/pdf-document-layout-analysis:v0.0.21
    
  1. 운영 서비스
    두 가지 방법으로 서비스를 시작할 수 있습니다:
  • GPU가 있습니다:
    docker run --rm --name pdf-analysis --gpus '"device=0"' -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21
    
  • GPU 없음:
    docker run --rm --name pdf-analysis -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21
    

서비스가 시작되면 기본적으로 5060 포트에서 수신 대기합니다. 포트가 사용 중인 경우 5061과 같은 다른 포트로 변경할 수 있습니다.

  1. 유효성 검사 서비스
    브라우저를 열고 다음 사이트를 방문하세요.http://localhost:5060/info버전 정보가 반환되면 정상적으로 실행 중이라는 의미입니다.

주요 기능 사용 방법

이 도구는 다음과 같은 공통 기능을 갖춘 API를 통해 작동합니다:

1. OCR 기능

스캔한 PDF를 검색 가능한 텍스트로 변환하려면 OCR을 사용하면 됩니다.

  • 절차::
    다음과 같은 PDF를 준비합니다.test.pdf터미널에서 실행합니다:
curl -X POST -F 'language=en' -F 'file=@/path/to/test.pdf' localhost:5060/ocr --output result.pdf
  • language=en는 영어이며 다음과 같이 대체할 수 있습니다.kor(한국어) 등을 지원합니다. 지원되는 언어는curl localhost:5060/info보기.
  • /path/to/test.pdf는 파일 경로입니다(예/home/user/test.pdf.
  • 출력 파일result.pdf은 현재 디렉터리에 저장됩니다.
  • 결국::
    복사할 수 있는 텍스트가 포함된 검색 가능한 PDF를 받습니다.

2. 레이아웃 분석

PDF에서 요소를 추출하고 레이아웃을 분석합니다:

  • 절차::
    실행 중입니다:
curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060 --output analysis.json
  • 출력 파일analysis.json위치, 유형(텍스트, 표 등)과 같은 요소 정보를 포함합니다.
  • 결국::
    JSON 파일에는 각 요소의 세부 정보가 나열됩니다.

3. 빠른 모드

더 빠른 처리를 원하시면 LightGBM 모델을 사용하고 매개변수를 추가하세요.fast=true::

curl -X POST -F 'file=@/path/to/test.pdf' -F 'fast=true' localhost:5060 --output fast_analysis.json
  • 다음 사항에 유의하십시오.빠르지만 정확도가 약간 떨어집니다.

4. 표 및 공식 추출

  • 출금 양식::
    형식을 지정합니다(예: 마크다운):
curl -X POST -F 'file=@/path/to/test.pdf' -F 'extraction_format=markdown' localhost:5060 --output table.json

지원markdownlatexhtml형식.

  • 추출 공식::
    기본 출력은 레이아웃 분석 명령과 함께 바로 사용할 수 있는 LaTeX 형식입니다.

5. 시각적 출력

마크업된 PDF를 보고 싶습니다:

curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060/visualize --output visualized.pdf
  • 결국::
    출력 PDF에는 각 요소의 위치와 유형이 표시된 레이블이 지정됩니다.

6. 언어 지원 추가

기본적으로 몇 가지 언어만 지원되므로 더 많은 언어(예: 중국어)를 추가하고 싶습니다:

  • 컨테이너를 입력합니다:
docker exec -it --user root pdf-analysis /bin/bash
  • 언어 팩(예: 중국어)을 설치합니다:
apt-get install tesseract-ocr-chi-sim
  • 확인:
curl localhost:5060/info

를 참조하십시오.chi_sim성공을 나타냅니다.

7. 서비스 중단

서비스 중단:

docker stop pdf-analysis

출력 요소 순서

분석 결과는 특정 순서로 표시됩니다. 이 도구는 포플러를 사용하여 초기 판독 순서를 결정한 다음 요소 유형에 따라 조정합니다:

  • 헤더는 페이지 상단에 있으며 내부 순서대로 정렬됩니다.
  • 공통 요소(텍스트, 표 등)는 평균 읽기 순서대로 정렬됩니다.
  • 바닥글과 각주는 마지막에 배치됩니다.
  • 텍스트가 없는 요소(예: 이미지)는 텍스트가 있는 가장 가까운 요소의 순서에 따라 정렬됩니다.

주의

  • 하드웨어 요구 사항비주얼 모델은 GPU와 5GB의 비디오 메모리가 필요하며, GPU가 없으면 CPU로 느려집니다. lightGBM은 CPU 전용이며 2GB의 RAM이 필요합니다.
  • 템포학술 논문 15페이지, 고속 모드에서 0.42초/페이지, VGT(GPU)에서 1.75초/페이지, VGT(CPU)에서 13.5초/페이지.
  • 테스트 중 구성 요소 조정문제가 발생했을 때 로그 보기:
docker logs pdf-analysis

이러한 기능과 단계를 통해 빠르게 시작하고 다양한 PDF 요구 사항을 처리할 수 있습니다.

 

애플리케이션 시나리오

  1. 학술 연구
    연구자들은 논문에서 표와 공식을 추출하고 데이터를 보다 효율적으로 정리하는 데 이 기능을 사용합니다.
  2. 파일 관리
    아카이브 담당자는 오래된 문서의 스캔본을 찾기 쉬운 검색 가능한 PDF로 변환합니다.
  3. 법률 업무
    변호사는 계약서 PDF를 분석하여 조항과 양식을 빠르게 찾습니다.

 

QA

  1. 요금이 부과되나요?
    무료입니다. 이 도구는 오픈 소스 도구로, GitHub에서 무료로 다운로드하여 사용할 수 있습니다.
  2. 네트워크가 필요한가요?
    이미지를 다운로드하려면 인터넷 연결이 필요하며, 그 후에는 오프라인으로 실행할 수 있습니다.
  3. 중국어를 지원하나요?
    지원. 중국어 패키지를 수동으로 설치해야 합니다(예tesseract-ocr-chi-sim), 영어보다 약간 덜 효과적이지만 사용할 수 있습니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...