はじめに
Knowledge Tableは、非構造化ドキュメントから構造化データを抽出し、探索するプロセスを簡素化するために設計されたオープンソースプロジェクトです。ユーザーは、自然言語クエリーインターフェースを介して、表やグラフなどの構造化された知識表現を作成することができます。このツールは、カスタム抽出ルールとフォーマットオプションをサポートし、ユーザーインターフェイスを通じてデータソースを表示することで、データのトレーサビリティを確保します。Knowledge Sheetsは、ビジネスユーザーに使い慣れたスプレッドシート・インターフェースを提供する一方、開発者にはさまざまなデータ処理ニーズに対応する柔軟で高度に設定可能なバックエンドを提供します。
機能一覧
- 自然言語抽出(NLE)自然言語クエリを使用した非構造化ドキュメントからの構造化データ抽出をサポート。
- カスタム抽出ルールユーザーは抽出ルールを定義し、データの品質を確保することができます。
- フォーマット制御抽出されたデータの出力形式を制御することができます。
- ドキュメント・フィルタリングメタデータや抽出データに基づいて文書をフィルタリングします。
- CSVまたはマップトライアドのエクスポート抽出したデータをCSVやタプル形式でダウンロード可能。
- チェーン抽出質問で過去のコラムを参照できるようにする。
ヘルプの使用
インストールと操作
- Dockerの実行::
- DockerとDocker Composeがインストールされていることを確認する。
- コマンドの使用
docker-compose up -d --build
アプリケーションを起動する。 - フロントエンドへのアクセス
http://localhost:3000
バックエンドhttp://localhost:8000
.
- ローカルオペレーション::
- コードベースのクローン:
git clone https://github.com/yourusername/knowledge-table.git
- バックエンドディレクトリに移動し、仮想環境を作成する:
cd ナレッジテーブル/バックエンド/ python3 -m venv venv ソース venv/bin/activate Windows using venvvScriptsactivate pip install -r requirements.txt
- バックエンド・サービスを開始する:
cd src/ python -m uvicorn knowledge_table_api.main:app
- コードベースのクローン:
- フロントエンドの設定::
- フロントエンドのディレクトリに移動し、依存関係をインストールします:
cd .../frontend/ curl https://bun.sh/install | bash # インストレーション・バン バンのインストール バン・スタート
- フロントエンドのサービスは
http://localhost:5173
アクセス
- フロントエンドのディレクトリに移動し、依存関係をインストールします:
使用プロセス
- 文書のアップロード構造化されていない文書をナレッジテーブルにアップロードすると、システムはそれらをチャンクに分割し、ベクトルデータベースに格納する。
- 問題とルールの設定抽出するデータの種類とそれに対応する質問を定義し、その情報に基づいてシステムが処理を行う。
- 結果を見るデータ処理完了後、ユーザーは構造化された出力を見て、必要に応じて調整することができます。
ほら
- 他者の権利や利益を侵害しないよう、関連法規を確実に遵守する。
- 抽出されたデータは定期的に検証され、その正確性と最新性が保証される。