Chunkr: 시각적 모델을 사용해 문서를 수집하고 텍스트 단락 계층 구조를 기반으로 지능형 청킹을 수행하는 올인원 서비스입니다.

최신 AI 리소스12개월 전에 게시됨 AI 공유 서클
33.2K 00
堆友AI

일반 소개

Chunkr는 PDF, PPTX, DOCX 및 Excel 파일을 RAG(검색 증강 생성) 및 LLM(대규모 언어 모델링)에 사용하기 적합한 데이터로 변환하는 데 전용으로 사용되는 자체 호스팅 API입니다. 에서 문서 수집을 위한 고급 시각 모델을 사용해 HTML 및 마크다운 형식의 구조화된 데이터를 생성하고 OCR(광학 문자 인식) 및 경계 상자 감지를 지원하기 위해 개발한 Chunkr는 다양한 기업 및 개발자의 요구에 맞는 효율적인 문서 처리 솔루션을 제공합니다.

Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

 

기능 목록

  • 문서 변환PDF, PPTX, DOCX 및 Excel 파일을 RAG/LLM 데이터로 변환하는 기능을 지원합니다.
  • OCR 지원광학 문자 인식 기술을 통합하여 문서의 텍스트 콘텐츠를 자동으로 인식합니다.
  • 경계 상자 감지시각적 모델링을 통해 문서 레이아웃을 감지하고 정확한 경계 상자를 생성합니다.
  • 구조화된 출력구조화된 HTML 및 마크다운 형식을 생성하여 후속 처리 및 사용이 용이하도록 합니다.
  • 자체 호스팅사용자가 로컬 또는 클라우드에서 서비스를 자체 호스팅할 수 있도록 Docker 및 Kubernetes 배포를 지원합니다.
  • 고가용성 및 확장성엔터프라이즈급 애플리케이션의 요구 사항을 수용하기 위한 고가용성 구성 및 확장 가이드를 제공합니다.

 

도움말 사용

설치 프로세스

도커 컴포즈 빠른 시작

  1. 설치 전제 조건Docker 및 Docker Compose가 설치되어 있는지 확인합니다.
  2. 클론 창고::
   git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
  1. 환경 구성 파일을 복사합니다.::
   cp .env.example .env
  1. 서비스 시작::
   docker compose up -d
  1. 액세스 서비스::
    • 웹 UI: http://localhost:5173
    • API: http://localhost:8000

Kubernetes 프로덕션 환경 배포

  1. 예비Kubernetes 클러스터와 kubectl이 설치되어 있는지 확인합니다.
  2. 배포 서비스::
   kubectl apply -f kubernetes-manifests/
  1. 고가용성 구성 및 확장참조 self-deployment.md 고가용성 구성 및 확장에 대한 설명서를 참조하세요.

사용 가이드라인

  1. 계정 생성 및 API 키 받기::
    • chunkr.ai를 방문하여 계정을 등록하세요.
    • 로그인하여 API 키를 받습니다.
  2. 작업 만들기::
   curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"
  1. 폴링 작업 상태::
   curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"

주요 기능

  • 문서 변환: 파일을 업로드한 후 변환 모델과 대상 블록 길이를 선택하면 시스템이 자동으로 처리하여 구조화된 데이터를 반환합니다.
  • OCR 인식파일 업로드 시 OCR 정책을 선택하면 시스템이 자동으로 문서의 텍스트 내용을 인식하고 테두리 상자를 생성합니다.
  • 결과 보기API 또는 웹 UI를 통해 변환된 구조화된 데이터를 확인하며, HTML 및 마크다운 형식을 지원합니다.

Chunkr는 사용자가 빠르게 시작하고 기존 시스템에 통합할 수 있도록 자세한 문서와 샘플 코드를 제공합니다. 개발자와 비즈니스 사용자 모두 청크를 사용하여 문서를 효율적으로 처리하고 변환하여 생산성을 높일 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...