Chunkr: 시각적 모델을 사용해 문서를 수집하고 텍스트 단락 계층 구조를 기반으로 지능형 청킹을 수행하는 올인원 서비스입니다.
일반 소개
Chunkr는 PDF, PPTX, DOCX 및 Excel 파일을 RAG(검색 증강 생성) 및 LLM(대규모 언어 모델링)에 사용하기 적합한 데이터로 변환하는 데 전용으로 사용되는 자체 호스팅 API입니다. 에서 문서 수집을 위한 고급 시각 모델을 사용해 HTML 및 마크다운 형식의 구조화된 데이터를 생성하고 OCR(광학 문자 인식) 및 경계 상자 감지를 지원하기 위해 개발한 Chunkr는 다양한 기업 및 개발자의 요구에 맞는 효율적인 문서 처리 솔루션을 제공합니다.

기능 목록
- 문서 변환PDF, PPTX, DOCX 및 Excel 파일을 RAG/LLM 데이터로 변환하는 기능을 지원합니다.
- OCR 지원광학 문자 인식 기술을 통합하여 문서의 텍스트 콘텐츠를 자동으로 인식합니다.
- 경계 상자 감지시각적 모델링을 통해 문서 레이아웃을 감지하고 정확한 경계 상자를 생성합니다.
- 구조화된 출력구조화된 HTML 및 마크다운 형식을 생성하여 후속 처리 및 사용이 용이하도록 합니다.
- 자체 호스팅사용자가 로컬 또는 클라우드에서 서비스를 자체 호스팅할 수 있도록 Docker 및 Kubernetes 배포를 지원합니다.
- 고가용성 및 확장성엔터프라이즈급 애플리케이션의 요구 사항을 수용하기 위한 고가용성 구성 및 확장 가이드를 제공합니다.
도움말 사용
설치 프로세스
도커 컴포즈 빠른 시작
- 설치 전제 조건Docker 및 Docker Compose가 설치되어 있는지 확인합니다.
- 클론 창고::
git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
- 환경 구성 파일을 복사합니다.::
cp .env.example .env
- 서비스 시작::
docker compose up -d
- 액세스 서비스::
- 웹 UI: http://localhost:5173
- API: http://localhost:8000
Kubernetes 프로덕션 환경 배포
- 예비Kubernetes 클러스터와 kubectl이 설치되어 있는지 확인합니다.
- 배포 서비스::
kubectl apply -f kubernetes-manifests/
- 고가용성 구성 및 확장참조
self-deployment.md
고가용성 구성 및 확장에 대한 설명서를 참조하세요.
사용 가이드라인
- 계정 생성 및 API 키 받기::
- chunkr.ai를 방문하여 계정을 등록하세요.
- 로그인하여 API 키를 받습니다.
- 작업 만들기::
curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"
- 폴링 작업 상태::
curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"
주요 기능
- 문서 변환: 파일을 업로드한 후 변환 모델과 대상 블록 길이를 선택하면 시스템이 자동으로 처리하여 구조화된 데이터를 반환합니다.
- OCR 인식파일 업로드 시 OCR 정책을 선택하면 시스템이 자동으로 문서의 텍스트 내용을 인식하고 테두리 상자를 생성합니다.
- 결과 보기API 또는 웹 UI를 통해 변환된 구조화된 데이터를 확인하며, HTML 및 마크다운 형식을 지원합니다.
Chunkr는 사용자가 빠르게 시작하고 기존 시스템에 통합할 수 있도록 자세한 문서와 샘플 코드를 제공합니다. 개발자와 비즈니스 사용자 모두 청크를 사용하여 문서를 효율적으로 처리하고 변환하여 생산성을 높일 수 있습니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...