Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

52.8K 00

はじめに

Chunkrは、PDF、PPTX、DOCX、Excelファイルを、RAG（Retrieval Augmented Generation）やLLM（Large Language Modelling）で使用するのに適したデータに変換するための、セルフホストAPIです。Lumina AI Inc.によって開発されたChunkrは、OCR（光学式文字認識）とバウンディングボックス検出をサポートしたドキュメント取り込み用の高度な視覚モデルを使用して、HTMLとMarkdown形式の構造化データを生成します。

機能一覧

文書変換PDF、PPTX、DOCX、ExcelファイルからRAG/LLMデータへの変換をサポート。
OCRサポート光学式文字認識技術を統合し、文書内のテキストコンテンツを自動的に識別します。
バウンダリーボックス検出ビジュアルモデリングによる文書レイアウトの検出と正確なバウンディングボックスの生成。
構造化出力構造化されたHTMLやMarkdownフォーマットを生成し、その後の処理や利用を容易にします。
自ホストDockerとKubernetesのデプロイをサポートし、ユーザーはローカルまたはクラウドでサービスをセルフホストできます。
高い可用性と拡張性エンタープライズクラスのアプリケーションのニーズに対応する高可用性コンフィギュレーションと拡張ガイドを提供します。

ヘルプの使用

設置プロセス

Docker Compose クイックスタート

インストールの前提条件DockerとDocker Composeがインストールされていることを確認する。
クローン倉庫::

   git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr

環境設定ファイルをコピーする::

   cp .env.example .env

サービス開始::

   docker compose up -d

アクセスサービス::
- ウェブUI：http://localhost:5173
- API: http://localhost:8000

Kubernetes本番環境のデプロイメント

予備Kubernetesクラスタとkubectlがインストールされていることを確認する。
デプロイメント・サービス::

   kubectl apply -f kubernetes-manifests/

高可用性とスケーリングの設定参考 self-deployment.md 高可用性構成とスケーリングに関する文書。

使用ガイドライン

アカウントを作成し、APIキーを取得する::
- アカウント登録はchunkr.aiへ。
- ログインしてAPIキーを取得する。
タスクの作成::

   curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"

ポーリング・タスクのステータス::

   curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"

主な機能

文書変換ファイルをアップロードした後、変換モデルとターゲットブロック長を選択すると、システムが自動的に構造化データを処理して返します。
OCR認識ファイルをアップロードする際にOCRポリシーを選択すると、システムは自動的にドキュメント内のテキストコンテンツを認識し、バウンディングボックスを生成します。
結果表示変換された構造化データをAPIまたはWeb UIで表示。HTMLおよびMarkdown形式をサポート。

Chunkrは、詳細なドキュメントとサンプルコードを提供し、ユーザがすぐに使い始められ、既存のシステムに統合できるよう支援します。開発者もビジネスユーザーも、Chunkrを使って効率的にドキュメントを処理・変換し、生産性を向上させることができます。