NV Ingest: 복잡한 형식의 문서를 구문 분석하고 멀티모달 데이터를 메타데이터와 텍스트로 추출합니다.

63.7K 00

일반 소개

NVIDIA Ingest는 수십만 개의 복잡하고 지저분한 비정형 PDF 및 기타 엔터프라이즈 문서를 구문 분석하도록 설계된 얼리 액세스 마이크로서비스 제품군입니다. 이러한 문서를 메타데이터 및 텍스트로 변환하여 검색 시스템에 포함할 수 있도록 합니다.NVIDIA Ingest는 NVIDIA NIM 마이크로서비스를 사용하여 PDF, Word 및 PowerPoint 문서의 구문 분석을 지원하며, 다운스트림 생성 애플리케이션에서 사용할 텍스트, 표, 차트 및 이미지를 찾고, 컨텍스트화하며, 추출합니다. 이 서비스는 프로세싱을 병렬화하고, 문서를 페이지로 분할하고, 콘텐츠(예: 표, 차트, 이미지, 텍스트)를 분류하고, 광학 문자 인식(OCR)을 사용하여 잘 정의된 JSON 스키마로 추출합니다.NVIDIA Ingest는 선택적으로 포함된 콘텐츠의 계산을 관리하고 벡터 데이터베이스인 Milvus에 저장하기도 합니다.

도움말 파일: https://docs.nvidia.com/nv-ingest/

기능 목록

PDF, Word 및 PowerPoint 문서 구문 분석 지원
NVIDIA NIM 마이크로서비스로 텍스트, 표, 차트 및 이미지를 검색, 컨텍스트화 및 추출합니다.
문서 병렬화, 페이지로 분할 및 콘텐츠 분류하기
OCR을 통해 콘텐츠 추출 및 JSON 스키마로 변환하기
여러 문서 유형에 대한 추출 방법을 지원하여 처리량과 정확성의 균형을 유지합니다.
텍스트 분할 및 청크, 변환 및 필터링, 임베딩 생성, 스토리지로 이미지 오프로딩 등 다양한 전처리 및 후처리 작업을 지원합니다.
선택적으로 임베디드 콘텐츠의 계산 및 저장을 벡터 데이터베이스 Milvus로 관리합니다.

도움말 사용

설치 프로세스

NVIDIA Ingest 리포지토리를 복제합니다:

   git clone https://github.com/NVIDIA/nv-ingest.git

프로젝트 카탈로그로 이동합니다:

   cd nv-ingest

종속성을 설치합니다:

   pip install -r requirements.txt

환경 변수를 구성합니다:

   source setup_env.sh

서비스를 시작합니다:

   docker-compose up

사용 프로세스

문서 구문 분석 작업 제출::
- API를 통해 문서 로드 및 구문 분석 작업이 포함된 JSON 작업 설명을 제출하세요.
- JSON 작업 설명 예시:
```
 {
"document_payload": "base64_encoded_document",
"ingestion_tasks": ["parse_text", "extract_metadata"]
}
```
구문 분석 결과 검색::
- API를 통해 작업 결과를 검색하여 추출된 개체 메타데이터, 처리 주석 및 시간/추적 데이터가 포함된 JSON 사전을 생성합니다.
- 샘플 API 호출:
```
 curl -X GET "http://localhost:5000/api/results/{job_id}"
```
지원되는 문서 유형 및 추출 방법::
- PDF 문서: pdfium, Unstructured.io 및 Adobe 콘텐츠 추출 서비스를 통한 추출을 지원합니다.
- Word 문서: Microsoft Office API를 통한 추출을 지원합니다.
- PowerPoint 문서: Microsoft Office API를 통한 추출이 지원됩니다.
- 이미지: OCR을 통한 추출이 지원됩니다.
전처리 및 후처리 작업::
- 텍스트 분할 및 청크: 긴 텍스트를 더 나은 처리와 분석을 위해 작은 덩어리로 분할합니다.
- 변환 및 필터링: 추출된 텍스트를 변환하고 필터링하여 데이터 품질을 개선합니다.
- 임베딩 생성: 벡터 데이터베이스에 저장 및 검색할 수 있도록 추출된 콘텐츠의 임베딩을 계산합니다.
- 스토리지로 이미지 오프로드: 추가 처리 및 분석을 위해 추출된 이미지를 외부 스토리지로 오프로드합니다.

세부 운영 절차

문서 구문 분석 작업 제출::
- API를 통해 문서 로드 및 구문 분석 작업이 포함된 JSON 작업 설명을 제출하세요.
- JSON 작업 설명 예시:
```
 {
"document_payload": "base64_encoded_document",
"ingestion_tasks": ["parse_text", "extract_metadata"]
}
```
구문 분석 결과 검색::
- API를 통해 작업 결과를 검색하여 추출된 개체 메타데이터, 처리 주석 및 시간/추적 데이터가 포함된 JSON 사전을 생성합니다.
- 샘플 API 호출:
```
 curl -X GET "http://localhost:5000/api/results/{job_id}"
```
지원되는 문서 유형 및 추출 방법::
- PDF 문서: pdfium, Unstructured.io 및 Adobe 콘텐츠 추출 서비스를 통한 추출을 지원합니다.
- Word 문서: Microsoft Office API를 통한 추출을 지원합니다.
- PowerPoint 문서: Microsoft Office API를 통한 추출이 지원됩니다.
- 이미지: OCR을 통한 추출이 지원됩니다.
전처리 및 후처리 작업::
- 텍스트 분할 및 청크: 긴 텍스트를 더 나은 처리와 분석을 위해 작은 덩어리로 분할합니다.
- 변환 및 필터링: 추출된 텍스트를 변환하고 필터링하여 데이터 품질을 개선합니다.
- 임베딩 생성: 벡터 데이터베이스에 저장 및 검색할 수 있도록 추출된 콘텐츠의 임베딩을 계산합니다.
- 스토리지로 이미지 오프로드: 추가 처리 및 분석을 위해 추출된 이미지를 외부 스토리지로 오프로드합니다.