AIパーソナル・ラーニング
と実践的なガイダンス

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

はじめに

Chunkrは、PDF、PPTX、DOCX、Excelファイルを、RAG(Retrieval Augmented Generation)やLLM(Large Language Modelling)で使用するのに適したデータに変換するための、セルフホストAPIです。Lumina AI Inc.によって開発されたChunkrは、OCR(光学式文字認識)とバウンディングボックス検出をサポートしたドキュメント取り込み用の高度な視覚モデルを使用して、HTMLとMarkdown形式の構造化データを生成します。

Chunkr: ビジュアルモデルを用いた段落階層に基づくインテリジェントなチャンキングと文書取り込みのためのオールインワンサービス-1


 

機能一覧

  • 文書変換PDF、PPTX、DOCX、ExcelファイルからRAG/LLMデータへの変換をサポート。
  • OCRサポート光学式文字認識技術を統合し、文書内のテキストコンテンツを自動的に識別します。
  • バウンダリーボックス検出ビジュアルモデリングによる文書レイアウトの検出と正確なバウンディングボックスの生成。
  • 構造化出力構造化されたHTMLやMarkdownフォーマットを生成し、その後の処理や利用を容易にします。
  • 自ホストDockerとKubernetesのデプロイをサポートし、ユーザーはローカルまたはクラウドでサービスをセルフホストできます。
  • 高い可用性と拡張性エンタープライズクラスのアプリケーションのニーズに対応する高可用性コンフィギュレーションと拡張ガイドを提供します。

 

ヘルプの使用

設置プロセス

Docker Compose クイックスタート

  1. インストールの前提条件DockerとDocker Composeがインストールされていることを確認する。
  2. クローン倉庫::
   git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
  1. 環境設定ファイルをコピーする::
   cp .env.example .env
  1. サービス開始::
   docker compose up -d
  1. アクセスサービス::
    • ウェブUI:http://localhost:5173
    • API: http://localhost:8000

Kubernetes本番環境のデプロイメント

  1. 予備Kubernetesクラスタとkubectlがインストールされていることを確認する。
  2. デプロイメント・サービス::
   kubectl apply -f kubernetes-manifests/
  1. 高可用性とスケーリングの設定参考 自己展開.md 高可用性構成とスケーリングに関する文書。

使用ガイドライン

  1. アカウントを作成し、APIキーを取得する::
    • アカウント登録はchunkr.aiへ。
    • ログインしてAPIキーを取得する。
  2. タスクの作成::
   curl -X POST https://api.chunkr.ai/api/v1/task  \
-H "Content-Type: multipart/form-data" ୧-͈ᴗ-͈
-H "Authorization: ${YOUR_API_KEY}" ୧-͈ᴗ-͈⁎
-F "file=@/path/to/your/file" ୧-͈ᴗ-͈
-F "model=HighQuality" ୧-͈ᴗ-͈)◞ᵒᵒᵒ
-F "target_chunk_length=512" ୧-͈ᴗ-͈
-F "ocr_strategy=Auto"  \fscy -F "ocr_strategy=Auto"
  1. ポーリング・タスクのステータス::
   curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID}  \
-H "Authorization: ${YOUR_API_KEY}"

主な機能

  • 文書変換ファイルをアップロードした後、変換モデルとターゲットブロック長を選択すると、システムが自動的に構造化データを処理して返します。
  • OCR認識ファイルをアップロードする際にOCRポリシーを選択すると、システムは自動的にドキュメント内のテキストコンテンツを認識し、バウンディングボックスを生成します。
  • 結果表示変換された構造化データをAPIまたはWeb UIで表示。HTMLおよびMarkdown形式をサポート。

Chunkrは、詳細なドキュメントとサンプルコードを提供し、ユーザがすぐに使い始められ、既存のシステムに統合できるよう支援します。開発者もビジネスユーザーも、Chunkrを使って効率的にドキュメントを処理・変換し、生産性を向上させることができます。

AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語