일반 소개
Unstructured-IO는 PDF, HTML, Word 문서 등과 같은 이미지 및 텍스트 문서를 처리하고 전처리하기 위한 다양한 오픈 소스 구성 요소를 제공합니다. 주요 목표는 데이터 처리 워크플로우를 단순화하고 최적화하는 것이며, 특히 대규모 언어 모델(LLM) 애플리케이션을 위한 것입니다. 주요 목표는 데이터 처리 워크플로우를 간소화하고 최적화하는 것으로, 특히 대규모 언어 모델(LLM) 애플리케이션의 경우 Unstructured-IO의 모듈식 기능과 커넥터는 데이터 수집 및 전처리를 효율적이고 다양한 플랫폼에 적용할 수 있는 통합 시스템을 형성합니다.

기능 목록
- 데이터 수집 및 전처리
- 여러 문서 유형(PDF, HTML, Word 등) 지원
- 모듈식 기능 및 커넥터
- 오픈 소스 API 및 클라이언트 라이브러리 제공
- Docker 컨테이너형 배포 지원
- 성능 향상을 위한 서버리스 API 제공
도움말 사용
설치 프로세스
- Docker 컨테이너 런타임 라이브러리 사용
- Docker가 설치되어 있는지 확인합니다.
- 다음 명령을 실행하여 적절한 Docker 이미지를 다운로드하고 실행합니다:
docker pull downloads.unstructured.io/unstructured-io/unstructured:latest docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
- PyPI에서 라이브러리 설치
- pip를 사용하여 설치합니다:
pip install unstructured
- pip를 사용하여 설치합니다:
- 지역 개발 설치
- GitHub 리포지토리를 복제합니다:
git clone https://github.com/Unstructured-IO/unstructured.git cd unstructured pip install -e .
- GitHub 리포지토리를 복제합니다:
사용 가이드라인
- 데이터 수집
- 활용
unstructured
라이브러리는 문서를 수집합니다:from unstructured.partition.pdf import partition_pdf document = partition_pdf("example.pdf")
- 활용
- 데이터 전처리
- 문서 정리 및 덩어리 정리:
from unstructured.cleaners.core import clean cleaned_document = clean(document)
- 문서 정리 및 덩어리 정리:
- 데이터 원본 및 대상에 연결
- 커넥터를 사용하여 대상 위치로 데이터를 전송합니다:
from unstructured.connectors import send_to_destination send_to_destination(cleaned_document, destination="s3://bucket-name")
- 커넥터를 사용하여 대상 위치로 데이터를 전송합니다:
- 서버리스 API
- 등록하고 API 키를 받습니다:
- 인터뷰 비정형 API 등록 페이지.
- API 키를 받아 사용을 시작하세요:
import requests headers = {"Authorization": "Bearer YOUR_API_KEY"} response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document": "example.pdf"})
- 등록하고 API 키를 받습니다:
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...