텍스트 추출 API(text-extract-api): 텍스트 정보의 시각적 추출, 익명화된 PDF 추출 도구

55.2K 00

일반 소개

텍스트 추출 API(text-extract-api)는 다양한 문서 형식(예: PDF, Word, PPTX 등)에서 콘텐츠를 추출하고 파싱할 수 있도록 설계된 강력한 도구입니다. 이 API는 최첨단 광학 문자 인식(OCR) 기술과 올라마 지원 모델을 활용하여 모든 문서나 이미지를 구조화된 JSON 또는 마크다운 형식으로 변환할 수 있습니다. 주요 기능으로는 매우 정확한 텍스트 추출, 개인 식별 정보(PII) 제거, 다양한 저장 전략 지원, 분산 작업 처리 등이 있습니다. 텍스트 추출 API는 FastAPI로 구축되었으며, 비동기 작업 처리를 위해 Celery를, OCR 결과 캐싱을 위해 Redis를 사용하여 효율적이고 안정적인 문서 처리 환경을 보장합니다.

pdf-extract-api는 Ollama에서 지원하는 최첨단 OCR 기술과 모델을 사용하여 문서 익명화를 지원하는 문서 추출 및 구문 분석 API입니다. 모든 문서나 이미지를 구조화된 JSON 또는 마크다운으로 변환할 수 있으며 표 형식 데이터, 숫자 및 수학 공식의 고정밀 추출을 지원합니다. FastAPI를 기반으로 구축된 이 API는 비동기 작업 처리를 위해 Celery를 사용하고 OCR 결과를 캐시하기 위해 Redis를 사용하여 효율적이고 안정적인 문서 처리를 보장합니다.

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

기능 목록

고정밀 OCR: 파이토치, 마커, 라마3.2 비전 및 기타 OCR 전략을 사용하여 고정밀 텍스트 추출을 달성하세요.
문서 변환: PDF, Word, PPTX 및 기타 문서를 마크다운 또는 JSON 형식으로 변환할 수 있도록 지원합니다.
PII 제거: 문서에서 개인 식별 정보를 자동으로 식별하고 제거합니다.
분산 처리: 분산 작업 처리에 셀러리를 사용하여 처리 효율성을 개선하세요.
캐싱 메커니즘: Redis를 사용하여 OCR 결과를 캐시하여 반복 처리 시간을 줄입니다.
멀티 스토리지 전략: 로컬 파일 시스템, Google 드라이브 및 기타 저장 방법을 지원합니다.
CLI 도구: 사용자가 쉽게 작업을 전송하고 결과를 처리할 수 있도록 명령줄 도구를 제공합니다.

도움말 사용

설치 프로세스

Ollama를 다운로드하여 설치합니다.
Docker를 다운로드하여 설치합니다.
텍스트 추출 API 리포지토리를 복제합니다:

   git clone https://github.com/CatchTheTornado/text-extract-api.git

프로젝트 디렉토리로 이동하여 Docker 컨테이너를 시작합니다:

   cd text-extract-api
docker-compose up

사용법

문서 변환

변환할 문서를 지정된 디렉터리에 업로드합니다.
CLI 도구를 사용하여 변환 작업을 전송합니다:

   python client/cli.py ocr_upload --file examples/example.pdf --prompt_file examples/example-to-json-prompt.txt

변환 결과는 지정된 디렉터리에 JSON 또는 마크다운 형식으로 저장됩니다.

PII 제거

PII가 포함된 문서를 업로드합니다.
CLI 도구를 사용하여 제거 PII 작업을 전송합니다:

   python client/cli.py ocr_upload --file examples/example-pii.pdf --prompt_file examples/example-remove-pii.txt

처리된 문서에는 모든 개인 식별 정보가 제거됩니다.

세부 기능 작동 흐름

고정밀 OCR다양한 OCR 전략(예: 마커, 라마3.2 비전 등)을 구성하여 다양한 문서에 대해 고정밀 텍스트 추출을 달성합니다. 사용자는 문서 유형에 따라 가장 적합한 OCR 전략을 선택할 수 있습니다.
문서 변환PDF, Word, PPTX 및 기타 형식의 문서를 지원하여 후속 데이터 처리 및 분석을 용이하게 하기 위해 마크다운 또는 JSON 형식으로 변환합니다.
PII 제거문서에서 개인 식별 정보를 자동으로 식별하고 제거하여 데이터 프라이버시 및 보안을 보장합니다.
분산 처리대규모 문서 처리 작업을 지원하고 처리 효율성을 향상시키기 위해 Celery를 사용한 분산 작업 처리.
캐싱 메커니즘Redis를 사용하여 OCR 결과를 캐시하여 반복적인 처리 시간을 줄이고 시스템 응답 시간을 개선합니다.
멀티 스토리지 정책로컬 파일 시스템, 구글 드라이브 등 다양한 저장 방식을 지원하며, 사용자는 필요에 따라 적절한 저장 방식을 선택할 수 있습니다.
CLI 도구명령줄 도구가 제공되어 사용자가 간단한 명령으로 작업을 전송하고 결과를 처리할 수 있어 편리합니다.