OmniParse: 문서/멀티미디어에서 비정형 데이터를 추출하여 정형 데이터로 구문 분석합니다.

52.6K 00

일반 소개

OmniParse는 강력한 데이터 구문 분석 및 최적화 플랫폼으로, 모든 비정형 데이터를 GenAI(생성 인공 지능) 프레임워크에 최적화된 정형화된 실행 가능한 데이터로 변환하도록 설계되었습니다. 문서, 표, 이미지, 동영상, 오디오 파일, 웹 콘텐츠 등 어떤 종류의 데이터를 작업하든 OmniParse는 데이터를 깨끗하고 구조화하여 RAG(검색 증강 생성) 및 미세 조정과 같은 AI 애플리케이션을 위한 준비된 데이터로 만들어 줍니다.

: 오픈 소스 데모 주소: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb

기능 목록

완전 현지화, 외부 API 필요 없음
T4 GPU의 경우
약 20개 파일 유형 지원
문서, 멀티미디어 및 웹 페이지를 고품질의 구조화된 마크다운으로 변환하세요.
표 추출, 이미지 추출/자막, 오디오/비디오 전사, 웹 크롤링
도커 및 스카이파일럿을 통한 간편한 배포
친근한 Colab 환경
Gradio로 구동되는 대화형 UI

도움말 사용

설치 프로세스

클론 창고::

git clone https://github.com/adithya-s-k/omniparse
cd omniparse

가상 환경 만들기::

conda create -n omniparse-venv python=3.10
conda activate omniparse-venv

종속성 설치::

poetry install
# 或者
pip install -e .
# 或者
pip install -r pyproject.toml

Docker 사용

Docker Hub에서 OmniParse API 이미지 가져오기::
```
docker pull savatar101/omniparse:0.1
```

포트 8000을 노출하여 Docker 컨테이너를 실행합니다.::

# 如果使用GPU
docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
# 否则
docker run -p 8000:8000 savatar101/omniparse:0.1

운영 서버

서버 시작::
```
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
```
- --documents: 문서 구문 분석 및 수집에 도움이 되는 모든 모델(예: Surya OCR 모델 제품군 및 Florence-2)을 로드합니다.
- --media위스퍼 모델을 로드하여 오디오 및 비디오 파일을 트랜스크립션합니다.
- --web셀레늄 크롤러 설정하기.

지원되는 데이터 유형

(컴퓨터) 파일::.doc, .docx, .pdf, .ppt, .pptx
이미지::.png, .jpg, .jpeg, .tiff, .bmp, .heic
비디오::.mp4, .mkv, .avi, .mov
사운드 주파수::.mp3, .wav, .aac
웹 페이지: 동적 웹 페이지.http://.com

사용 예

문서 해상도::
```
python server.py --host 0.0.0.0 --port 8000 --documents
```
그러면 문서 유형의 데이터를 처리할 준비가 된 모든 문서 구문 분석 모델이 로드됩니다.
멀티미디어 구문 분석::
```
python server.py --host 0.0.0.0 --port 8000 --media
```
그러면 오디오 및 비디오 파일을 처리할 준비가 된 Whisper 모델이 로드됩니다.
웹 크롤러::
```
python server.py --host 0.0.0.0 --port 8000 --web
```
이렇게 하면 웹 콘텐츠를 처리할 준비가 된 Selenium 크롤러가 설정됩니다.