NV Ingest: 복잡한 형식의 문서를 구문 분석하고 멀티모달 데이터를 메타데이터와 텍스트로 추출합니다.

최신 AI 리소스7개월 전에 게시 됨 AI 공유 서클
2.6K 00

일반 소개

NVIDIA Ingest는 수십만 개의 복잡하고 지저분한 비정형 PDF 및 기타 엔터프라이즈 문서를 구문 분석하도록 설계된 얼리 액세스 마이크로서비스 제품군입니다. 이러한 문서를 메타데이터 및 텍스트로 변환하여 검색 시스템에 포함할 수 있도록 합니다.NVIDIA Ingest는 NVIDIA NIM 마이크로서비스를 사용하여 PDF, Word 및 PowerPoint 문서의 구문 분석을 지원하며, 다운스트림 생성 애플리케이션에서 사용할 텍스트, 표, 차트 및 이미지를 찾고, 컨텍스트화하며, 추출합니다. 이 서비스는 프로세싱을 병렬화하고, 문서를 페이지로 분할하고, 콘텐츠(예: 표, 차트, 이미지, 텍스트)를 분류하고, 광학 문자 인식(OCR)을 사용하여 잘 정의된 JSON 스키마로 추출합니다.NVIDIA Ingest는 선택적으로 포함된 콘텐츠의 계산을 관리하고 벡터 데이터베이스인 Milvus에 저장하기도 합니다.

NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

도움말 파일: https://docs.nvidia.com/nv-ingest/

 

기능 목록

  • PDF, Word 및 PowerPoint 문서 구문 분석 지원
  • NVIDIA NIM 마이크로서비스로 텍스트, 표, 차트 및 이미지를 검색, 컨텍스트화 및 추출합니다.
  • 문서 병렬화, 페이지로 분할 및 콘텐츠 분류하기
  • OCR을 통해 콘텐츠 추출 및 JSON 스키마로 변환하기
  • 여러 문서 유형에 대한 추출 방법을 지원하여 처리량과 정확성의 균형을 유지합니다.
  • 텍스트 분할 및 청크, 변환 및 필터링, 임베딩 생성, 스토리지로 이미지 오프로딩 등 다양한 전처리 및 후처리 작업을 지원합니다.
  • 선택적으로 임베디드 콘텐츠의 계산 및 저장을 벡터 데이터베이스 Milvus로 관리합니다.

 

도움말 사용

설치 프로세스

  1. NVIDIA Ingest 리포지토리를 복제합니다:
   git clone https://github.com/NVIDIA/nv-ingest.git
  1. 프로젝트 카탈로그로 이동합니다:
   cd nv-ingest
  1. 종속성을 설치합니다:
   pip install -r requirements.txt
  1. 환경 변수를 구성합니다:
   source setup_env.sh
  1. 서비스를 시작합니다:
   docker-compose up

사용 프로세스

  1. 문서 구문 분석 작업 제출::
    • API를 통해 문서 로드 및 구문 분석 작업이 포함된 JSON 작업 설명을 제출하세요.
    • JSON 작업 설명 예시:
     {
    "document_payload": "base64_encoded_document",
    "ingestion_tasks": ["parse_text", "extract_metadata"]
    }
    
  2. 구문 분석 결과 검색::
    • API를 통해 작업 결과를 검색하여 추출된 개체 메타데이터, 처리 주석 및 시간/추적 데이터가 포함된 JSON 사전을 생성합니다.
    • 샘플 API 호출:
     curl -X GET "http://localhost:5000/api/results/{job_id}"
    
  3. 지원되는 문서 유형 및 추출 방법::
    • PDF 문서: pdfium, Unstructured.io 및 Adobe 콘텐츠 추출 서비스를 통한 추출을 지원합니다.
    • Word 문서: Microsoft Office API를 통한 추출을 지원합니다.
    • PowerPoint 문서: Microsoft Office API를 통한 추출이 지원됩니다.
    • 이미지: OCR을 통한 추출이 지원됩니다.
  4. 전처리 및 후처리 작업::
    • 텍스트 분할 및 청크: 긴 텍스트를 더 나은 처리와 분석을 위해 작은 덩어리로 분할합니다.
    • 변환 및 필터링: 추출된 텍스트를 변환하고 필터링하여 데이터 품질을 개선합니다.
    • 임베딩 생성: 벡터 데이터베이스에 저장 및 검색할 수 있도록 추출된 콘텐츠의 임베딩을 계산합니다.
    • 스토리지로 이미지 오프로드: 추가 처리 및 분석을 위해 추출된 이미지를 외부 스토리지로 오프로드합니다.

세부 운영 절차

  1. 문서 구문 분석 작업 제출::
    • API를 통해 문서 로드 및 구문 분석 작업이 포함된 JSON 작업 설명을 제출하세요.
    • JSON 작업 설명 예시:
     {
    "document_payload": "base64_encoded_document",
    "ingestion_tasks": ["parse_text", "extract_metadata"]
    }
    
  2. 구문 분석 결과 검색::
    • API를 통해 작업 결과를 검색하여 추출된 개체 메타데이터, 처리 주석 및 시간/추적 데이터가 포함된 JSON 사전을 생성합니다.
    • 샘플 API 호출:
     curl -X GET "http://localhost:5000/api/results/{job_id}"
    
  3. 지원되는 문서 유형 및 추출 방법::
    • PDF 문서: pdfium, Unstructured.io 및 Adobe 콘텐츠 추출 서비스를 통한 추출을 지원합니다.
    • Word 문서: Microsoft Office API를 통한 추출을 지원합니다.
    • PowerPoint 문서: Microsoft Office API를 통한 추출이 지원됩니다.
    • 이미지: OCR을 통한 추출이 지원됩니다.
  4. 전처리 및 후처리 작업::
    • 텍스트 분할 및 청크: 긴 텍스트를 더 나은 처리와 분석을 위해 작은 덩어리로 분할합니다.
    • 변환 및 필터링: 추출된 텍스트를 변환하고 필터링하여 데이터 품질을 개선합니다.
    • 임베딩 생성: 벡터 데이터베이스에 저장 및 검색할 수 있도록 추출된 콘텐츠의 임베딩을 계산합니다.
    • 스토리지로 이미지 오프로드: 추가 처리 및 분석을 위해 추출된 이미지를 외부 스토리지로 오프로드합니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...