OmniParse: 문서/멀티미디어에서 비정형 데이터를 추출하여 정형 데이터로 구문 분석합니다.

최신 AI 리소스10개월 전 업데이트 AI 공유 서클
11.4K 00

일반 소개

OmniParse는 강력한 데이터 구문 분석 및 최적화 플랫폼으로, 모든 비정형 데이터를 GenAI(생성 인공 지능) 프레임워크에 최적화된 정형화된 실행 가능한 데이터로 변환하도록 설계되었습니다. 문서, 표, 이미지, 동영상, 오디오 파일, 웹 콘텐츠 등 어떤 종류의 데이터를 작업하든 OmniParse는 데이터를 깨끗하고 구조화하여 RAG(검색 증강 생성) 및 미세 조정과 같은 AI 애플리케이션을 위한 준비된 데이터로 만들어 줍니다.

OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

 

OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据
오픈 소스 데모 주소: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb

 

기능 목록

  • 완전 현지화, 외부 API 필요 없음
  • T4 GPU의 경우
  • 약 20개 파일 유형 지원
  • 문서, 멀티미디어 및 웹 페이지를 고품질의 구조화된 마크다운으로 변환하세요.
  • 표 추출, 이미지 추출/자막, 오디오/비디오 전사, 웹 크롤링
  • 도커 및 스카이파일럿을 통한 간편한 배포
  • 친근한 Colab 환경
  • Gradio로 구동되는 대화형 UI

도움말 사용

설치 프로세스

  1. 클론 창고::
    git clone https://github.com/adithya-s-k/omniparse
    cd omniparse
    
  2. 가상 환경 만들기::
    conda create -n omniparse-venv python=3.10
    conda activate omniparse-venv
    
  3. 종속성 설치::
    poetry install
    # 或者
    pip install -e .
    # 或者
    pip install -r pyproject.toml
    

Docker 사용

  1. Docker Hub에서 OmniParse API 이미지 가져오기::
    docker pull savatar101/omniparse:0.1
    
  2. 포트 8000을 노출하여 Docker 컨테이너를 실행합니다.::
    # 如果使用GPU
    docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
    # 否则
    docker run -p 8000:8000 savatar101/omniparse:0.1
    

운영 서버

  1. 서버 시작::
    python server.py --host 0.0.0.0 --port 8000 --documents --media --web
    
    • --documents: 문서 구문 분석 및 수집에 도움이 되는 모든 모델(예: Surya OCR 모델 제품군 및 Florence-2)을 로드합니다.
    • --media위스퍼 모델을 로드하여 오디오 및 비디오 파일을 트랜스크립션합니다.
    • --web셀레늄 크롤러 설정하기.

지원되는 데이터 유형

  • (컴퓨터) 파일::.doc.docx.pdf.ppt.pptx
  • 이미지::.png.jpg.jpeg.tiff.bmp.heic
  • 비디오::.mp4.mkv.avi.mov
  • 사운드 주파수::.mp3.wav.aac
  • 웹 페이지: 동적 웹 페이지.http://.com

사용 예

  1. 문서 해상도::
    python server.py --host 0.0.0.0 --port 8000 --documents
    

    그러면 문서 유형의 데이터를 처리할 준비가 된 모든 문서 구문 분석 모델이 로드됩니다.

  2. 멀티미디어 구문 분석::
    python server.py --host 0.0.0.0 --port 8000 --media
    

    그러면 오디오 및 비디오 파일을 처리할 준비가 된 Whisper 모델이 로드됩니다.

  3. 웹 크롤러::
    python server.py --host 0.0.0.0 --port 8000 --web
    

    이렇게 하면 웹 콘텐츠를 처리할 준비가 된 Selenium 크롤러가 설정됩니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...