일반 소개
OmniParse는 강력한 데이터 구문 분석 및 최적화 플랫폼으로, 모든 비정형 데이터를 GenAI(생성 인공 지능) 프레임워크에 최적화된 정형화된 실행 가능한 데이터로 변환하도록 설계되었습니다. 문서, 표, 이미지, 동영상, 오디오 파일, 웹 콘텐츠 등 어떤 종류의 데이터를 작업하든 OmniParse는 데이터를 깨끗하고 구조화하여 RAG(검색 증강 생성) 및 미세 조정과 같은 AI 애플리케이션을 위한 준비된 데이터로 만들어 줍니다.

- 오픈 소스 데모 주소: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb
기능 목록
- 완전 현지화, 외부 API 필요 없음
- T4 GPU의 경우
- 약 20개 파일 유형 지원
- 문서, 멀티미디어 및 웹 페이지를 고품질의 구조화된 마크다운으로 변환하세요.
- 표 추출, 이미지 추출/자막, 오디오/비디오 전사, 웹 크롤링
- 도커 및 스카이파일럿을 통한 간편한 배포
- 친근한 Colab 환경
- Gradio로 구동되는 대화형 UI
도움말 사용
설치 프로세스
- 클론 창고::
git clone https://github.com/adithya-s-k/omniparse cd omniparse
- 가상 환경 만들기::
conda create -n omniparse-venv python=3.10 conda activate omniparse-venv
- 종속성 설치::
poetry install # 或者 pip install -e . # 或者 pip install -r pyproject.toml
Docker 사용
- Docker Hub에서 OmniParse API 이미지 가져오기::
docker pull savatar101/omniparse:0.1
- 포트 8000을 노출하여 Docker 컨테이너를 실행합니다.::
# 如果使用GPU docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1 # 否则 docker run -p 8000:8000 savatar101/omniparse:0.1
운영 서버
- 서버 시작::
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
--documents
: 문서 구문 분석 및 수집에 도움이 되는 모든 모델(예: Surya OCR 모델 제품군 및 Florence-2)을 로드합니다.--media
위스퍼 모델을 로드하여 오디오 및 비디오 파일을 트랜스크립션합니다.--web
셀레늄 크롤러 설정하기.
지원되는 데이터 유형
- (컴퓨터) 파일::
.doc
,.docx
,.pdf
,.ppt
,.pptx
- 이미지::
.png
,.jpg
,.jpeg
,.tiff
,.bmp
,.heic
- 비디오::
.mp4
,.mkv
,.avi
,.mov
- 사운드 주파수::
.mp3
,.wav
,.aac
- 웹 페이지: 동적 웹 페이지.
http://.com
사용 예
- 문서 해상도::
python server.py --host 0.0.0.0 --port 8000 --documents
그러면 문서 유형의 데이터를 처리할 준비가 된 모든 문서 구문 분석 모델이 로드됩니다.
- 멀티미디어 구문 분석::
python server.py --host 0.0.0.0 --port 8000 --media
그러면 오디오 및 비디오 파일을 처리할 준비가 된 Whisper 모델이 로드됩니다.
- 웹 크롤러::
python server.py --host 0.0.0.0 --port 8000 --web
이렇게 하면 웹 콘텐츠를 처리할 준비가 된 Selenium 크롤러가 설정됩니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...