NV Ingest: 복잡한 형식의 문서를 구문 분석하고 멀티모달 데이터를 메타데이터와 텍스트로 추출합니다.

최신 AI 리소스12개월 전에 게시됨 AI 공유 서클
47.3K 00
堆友AI

일반 소개

NVIDIA Ingest는 수십만 개의 복잡하고 지저분한 비정형 PDF 및 기타 엔터프라이즈 문서를 구문 분석하도록 설계된 얼리 액세스 마이크로서비스 제품군입니다. 이러한 문서를 메타데이터 및 텍스트로 변환하여 검색 시스템에 포함할 수 있도록 합니다.NVIDIA Ingest는 NVIDIA NIM 마이크로서비스를 사용하여 PDF, Word 및 PowerPoint 문서의 구문 분석을 지원하며, 다운스트림 생성 애플리케이션에서 사용할 텍스트, 표, 차트 및 이미지를 찾고, 컨텍스트화하며, 추출합니다. 이 서비스는 프로세싱을 병렬화하고, 문서를 페이지로 분할하고, 콘텐츠(예: 표, 차트, 이미지, 텍스트)를 분류하고, 광학 문자 인식(OCR)을 사용하여 잘 정의된 JSON 스키마로 추출합니다.NVIDIA Ingest는 선택적으로 포함된 콘텐츠의 계산을 관리하고 벡터 데이터베이스인 Milvus에 저장하기도 합니다.

NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

도움말 파일: https://docs.nvidia.com/nv-ingest/

 

기능 목록

  • PDF, Word 및 PowerPoint 문서 구문 분석 지원
  • NVIDIA NIM 마이크로서비스로 텍스트, 표, 차트 및 이미지를 검색, 컨텍스트화 및 추출합니다.
  • 문서 병렬화, 페이지로 분할 및 콘텐츠 분류하기
  • OCR을 통해 콘텐츠 추출 및 JSON 스키마로 변환하기
  • 여러 문서 유형에 대한 추출 방법을 지원하여 처리량과 정확성의 균형을 유지합니다.
  • 텍스트 분할 및 청크, 변환 및 필터링, 임베딩 생성, 스토리지로 이미지 오프로딩 등 다양한 전처리 및 후처리 작업을 지원합니다.
  • 선택적으로 임베디드 콘텐츠의 계산 및 저장을 벡터 데이터베이스 Milvus로 관리합니다.

 

도움말 사용

설치 프로세스

  1. NVIDIA Ingest 리포지토리를 복제합니다:
   git clone https://github.com/NVIDIA/nv-ingest.git
  1. 프로젝트 카탈로그로 이동합니다:
   cd nv-ingest
  1. 종속성을 설치합니다:
   pip install -r requirements.txt
  1. 환경 변수를 구성합니다:
   source setup_env.sh
  1. 서비스를 시작합니다:
   docker-compose up

사용 프로세스

  1. 문서 구문 분석 작업 제출::
    • API를 통해 문서 로드 및 구문 분석 작업이 포함된 JSON 작업 설명을 제출하세요.
    • JSON 작업 설명 예시:
     {
    "document_payload": "base64_encoded_document",
    "ingestion_tasks": ["parse_text", "extract_metadata"]
    }
    
  2. 구문 분석 결과 검색::
    • API를 통해 작업 결과를 검색하여 추출된 개체 메타데이터, 처리 주석 및 시간/추적 데이터가 포함된 JSON 사전을 생성합니다.
    • 샘플 API 호출:
     curl -X GET "http://localhost:5000/api/results/{job_id}"
    
  3. 지원되는 문서 유형 및 추출 방법::
    • PDF 문서: pdfium, Unstructured.io 및 Adobe 콘텐츠 추출 서비스를 통한 추출을 지원합니다.
    • Word 문서: Microsoft Office API를 통한 추출을 지원합니다.
    • PowerPoint 문서: Microsoft Office API를 통한 추출이 지원됩니다.
    • 이미지: OCR을 통한 추출이 지원됩니다.
  4. 전처리 및 후처리 작업::
    • 텍스트 분할 및 청크: 긴 텍스트를 더 나은 처리와 분석을 위해 작은 덩어리로 분할합니다.
    • 변환 및 필터링: 추출된 텍스트를 변환하고 필터링하여 데이터 품질을 개선합니다.
    • 임베딩 생성: 벡터 데이터베이스에 저장 및 검색할 수 있도록 추출된 콘텐츠의 임베딩을 계산합니다.
    • 스토리지로 이미지 오프로드: 추가 처리 및 분석을 위해 추출된 이미지를 외부 스토리지로 오프로드합니다.

세부 운영 절차

  1. 문서 구문 분석 작업 제출::
    • API를 통해 문서 로드 및 구문 분석 작업이 포함된 JSON 작업 설명을 제출하세요.
    • JSON 작업 설명 예시:
     {
    "document_payload": "base64_encoded_document",
    "ingestion_tasks": ["parse_text", "extract_metadata"]
    }
    
  2. 구문 분석 결과 검색::
    • API를 통해 작업 결과를 검색하여 추출된 개체 메타데이터, 처리 주석 및 시간/추적 데이터가 포함된 JSON 사전을 생성합니다.
    • 샘플 API 호출:
     curl -X GET "http://localhost:5000/api/results/{job_id}"
    
  3. 지원되는 문서 유형 및 추출 방법::
    • PDF 문서: pdfium, Unstructured.io 및 Adobe 콘텐츠 추출 서비스를 통한 추출을 지원합니다.
    • Word 문서: Microsoft Office API를 통한 추출을 지원합니다.
    • PowerPoint 문서: Microsoft Office API를 통한 추출이 지원됩니다.
    • 이미지: OCR을 통한 추출이 지원됩니다.
  4. 전처리 및 후처리 작업::
    • 텍스트 분할 및 청크: 긴 텍스트를 더 나은 처리와 분석을 위해 작은 덩어리로 분할합니다.
    • 변환 및 필터링: 추출된 텍스트를 변환하고 필터링하여 데이터 품질을 개선합니다.
    • 임베딩 생성: 벡터 데이터베이스에 저장 및 검색할 수 있도록 추출된 콘텐츠의 임베딩을 계산합니다.
    • 스토리지로 이미지 오프로드: 추가 처리 및 분석을 위해 추출된 이미지를 외부 스토리지로 오프로드합니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...