일반 소개
PDF 문서의 레이아웃을 자동으로 분석하고 페이지의 텍스트, 제목, 이미지, 표, 수식 및 기타 요소를 식별하고 올바른 순서를 결정합니다. 이 도구는 OCR 기능을 지원하여 PDF를 검색 가능한 텍스트로 스캔할 수 있습니다. 이 도구는 Docker에서 실행되며 시각적 모델(비전 그리드 트랜스포머 또는 VGT)과 LightGBM 모델의 두 가지 모델을 제공합니다. 전자는 매우 정확하지만 리소스를 많이 소비하고, 후자는 빠르고 리소스를 절약합니다. 현재 버전은 v0.0.21로 GitHub에서 무료로 공개되어 있으며 PDF를 처리해야 하는 연구자, 아키비스트 등에게 적합합니다.

기능 목록
- PDF 페이지의 텍스트, 제목, 이미지, 표, 수식 및 기타 요소를 자동으로 식별합니다.
- 스캔한 PDF를 검색 가능한 텍스트로 변환하는 OCR 기능을 지원합니다.
- 페이지 요소의 올바른 읽기 순서를 결정합니다.
- 시각적 모델(VGT)과 LightGBM 모델의 두 가지 분석 모드가 제공됩니다.
- 표를 추출하고 마크다운, 라텍스, HTML 등 다양한 출력 형식을 지원합니다.
- 수식을 추출하고 기본적으로 LaTeX 형식을 출력합니다.
- 영어, 한국어 등 다국어 OCR을 지원합니다.
- 다른 프로젝트에 통합할 수 있는 API 인터페이스를 제공합니다.
- 시각적 출력을 지원하여 주석이 포함된 PDF를 생성합니다.
도움말 사용
설치 프로세스
이 도구는 Docker와 함께 실행되며 설치 단계는 다음과 같습니다:
- 환경 준비하기
먼저 도커를 설치합니다. 도커 웹사이트로 이동하여 도커를 다운로드하여 설치합니다. 설치 후 터미널을 입력합니다:
docker --version
버전 번호가 표시되면 성공한 것입니다. GPU를 사용하는 경우 NVIDIA 컨테이너 툴킷도 설치해야 합니다.설치 가이드.
- 거울 당기기
터미널에 명령을 입력하여 도구 이미지를 가져옵니다:
- GPU가 있습니다:
docker pull huridocs/pdf-document-layout-analysis:v0.0.21
- GPU 없음:
docker pull huridocs/pdf-document-layout-analysis:v0.0.21
- 운영 서비스
두 가지 방법으로 서비스를 시작할 수 있습니다:
- GPU가 있습니다:
docker run --rm --name pdf-analysis --gpus '"device=0"' -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21
- GPU 없음:
docker run --rm --name pdf-analysis -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21
서비스가 시작되면 기본적으로 5060 포트에서 수신 대기합니다. 포트가 사용 중인 경우 5061과 같은 다른 포트로 변경할 수 있습니다.
- 유효성 검사 서비스
브라우저를 열고 다음 사이트를 방문하세요.http://localhost:5060/info
버전 정보가 반환되면 정상적으로 실행 중이라는 의미입니다.
주요 기능 사용 방법
이 도구는 다음과 같은 공통 기능을 갖춘 API를 통해 작동합니다:
1. OCR 기능
스캔한 PDF를 검색 가능한 텍스트로 변환하려면 OCR을 사용하면 됩니다.
- 절차::
다음과 같은 PDF를 준비합니다.test.pdf
터미널에서 실행합니다:
curl -X POST -F 'language=en' -F 'file=@/path/to/test.pdf' localhost:5060/ocr --output result.pdf
language=en
는 영어이며 다음과 같이 대체할 수 있습니다.kor
(한국어) 등을 지원합니다. 지원되는 언어는curl localhost:5060/info
보기./path/to/test.pdf
는 파일 경로입니다(예/home/user/test.pdf
.- 출력 파일
result.pdf
은 현재 디렉터리에 저장됩니다. - 결국::
복사할 수 있는 텍스트가 포함된 검색 가능한 PDF를 받습니다.
2. 레이아웃 분석
PDF에서 요소를 추출하고 레이아웃을 분석합니다:
- 절차::
실행 중입니다:
curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060 --output analysis.json
- 출력 파일
analysis.json
위치, 유형(텍스트, 표 등)과 같은 요소 정보를 포함합니다. - 결국::
JSON 파일에는 각 요소의 세부 정보가 나열됩니다.
3. 빠른 모드
더 빠른 처리를 원하시면 LightGBM 모델을 사용하고 매개변수를 추가하세요.fast=true
::
curl -X POST -F 'file=@/path/to/test.pdf' -F 'fast=true' localhost:5060 --output fast_analysis.json
- 다음 사항에 유의하십시오.빠르지만 정확도가 약간 떨어집니다.
4. 표 및 공식 추출
- 출금 양식::
형식을 지정합니다(예: 마크다운):
curl -X POST -F 'file=@/path/to/test.pdf' -F 'extraction_format=markdown' localhost:5060 --output table.json
지원markdown
및latex
및html
형식.
- 추출 공식::
기본 출력은 레이아웃 분석 명령과 함께 바로 사용할 수 있는 LaTeX 형식입니다.
5. 시각적 출력
마크업된 PDF를 보고 싶습니다:
curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060/visualize --output visualized.pdf
- 결국::
출력 PDF에는 각 요소의 위치와 유형이 표시된 레이블이 지정됩니다.
6. 언어 지원 추가
기본적으로 몇 가지 언어만 지원되므로 더 많은 언어(예: 중국어)를 추가하고 싶습니다:
- 컨테이너를 입력합니다:
docker exec -it --user root pdf-analysis /bin/bash
- 언어 팩(예: 중국어)을 설치합니다:
apt-get install tesseract-ocr-chi-sim
- 확인:
curl localhost:5060/info
를 참조하십시오.chi_sim
성공을 나타냅니다.
7. 서비스 중단
서비스 중단:
docker stop pdf-analysis
출력 요소 순서
분석 결과는 특정 순서로 표시됩니다. 이 도구는 포플러를 사용하여 초기 판독 순서를 결정한 다음 요소 유형에 따라 조정합니다:
- 헤더는 페이지 상단에 있으며 내부 순서대로 정렬됩니다.
- 공통 요소(텍스트, 표 등)는 평균 읽기 순서대로 정렬됩니다.
- 바닥글과 각주는 마지막에 배치됩니다.
- 텍스트가 없는 요소(예: 이미지)는 텍스트가 있는 가장 가까운 요소의 순서에 따라 정렬됩니다.
주의
- 하드웨어 요구 사항비주얼 모델은 GPU와 5GB의 비디오 메모리가 필요하며, GPU가 없으면 CPU로 느려집니다. lightGBM은 CPU 전용이며 2GB의 RAM이 필요합니다.
- 템포학술 논문 15페이지, 고속 모드에서 0.42초/페이지, VGT(GPU)에서 1.75초/페이지, VGT(CPU)에서 13.5초/페이지.
- 테스트 중 구성 요소 조정문제가 발생했을 때 로그 보기:
docker logs pdf-analysis
이러한 기능과 단계를 통해 빠르게 시작하고 다양한 PDF 요구 사항을 처리할 수 있습니다.
애플리케이션 시나리오
- 학술 연구
연구자들은 논문에서 표와 공식을 추출하고 데이터를 보다 효율적으로 정리하는 데 이 기능을 사용합니다. - 파일 관리
아카이브 담당자는 오래된 문서의 스캔본을 찾기 쉬운 검색 가능한 PDF로 변환합니다. - 법률 업무
변호사는 계약서 PDF를 분석하여 조항과 양식을 빠르게 찾습니다.
QA
- 요금이 부과되나요?
무료입니다. 이 도구는 오픈 소스 도구로, GitHub에서 무료로 다운로드하여 사용할 수 있습니다. - 네트워크가 필요한가요?
이미지를 다운로드하려면 인터넷 연결이 필요하며, 그 후에는 오프라인으로 실행할 수 있습니다. - 중국어를 지원하나요?
지원. 중국어 패키지를 수동으로 설치해야 합니다(예tesseract-ocr-chi-sim
), 영어보다 약간 덜 효과적이지만 사용할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...