はじめに
ColiVaraは、ビジュアル埋め込み技術に基づく文書保管・検索サービスです。ColiVaraはPDF、DOCX、PPTXなど100以上のファイル形式をサポートし、Webページのスクリーンショットを自動的に取り込み、インデックス化することができます。coliVaraはPythonとTypeScript用のAPIとSDKを提供するので、ベクターデータベースを管理する必要はありません(pgVectorはバックグラウンドで動作します)。さらに、coliVaraは詳細なドキュメントとシームレスなローカルまたはクラウドベースのクイックスタートガイドを提供し、精度を高めるためにポストインタラクティブエンベッディング技術を使用しています。何よりも、ColiVaraは完全にオープンソースです。
機能一覧
- ドキュメント・ストレージ:複数のファイル形式のドキュメントのアップロードと保存をサポート。
- 文書検索:視覚的埋め込み技術に基づく効率的な文書検索と検索。
- 自動スクリーンショット:ウェブページのスクリーンショットを自動的に撮影し、インデックスを作成します。
- メタデータ管理:分類と検索を容易にするために、文書にメタデータを追加するためのサポート。
- APIインターフェース:開発者が簡単に統合して使用できるように、PythonとTypeScriptのSDKを提供する。
- コレクション管理:ドキュメントをコレクション別に管理し、整理・分類を容易にします。
- マルチモーダル検索:最先端のマルチモーダル検索機能をサポート。
- ベクターデータベースの管理不要:pgVectorはバックグラウンドで実行されるため、ユーザーはベクターデータベースを管理する必要がありません。
- オープンソース:ColiVaraは完全にオープンソースであり、ユーザーは自由に使用し、変更することができる。
ヘルプの使用
インストールと設定
- APIキーの取得:コリヴァラのウェブサイトにアクセスしてサインアップし、無料のAPIキーを取得する。
- SDKをインストールします:
- パイソン
pip install colivara-py
- TypeScript:
npm install colivara-ts
- パイソン
- クライアントを設定する:
from colivara_py import ColiVara
client = ColiVara(api_key='你的API Key')
ドキュメントのアップロード
- ドキュメントをアップロードする:
document = client.upsert_document(
name="sample_document",
document_url="https://example.com/sample.pdf",
metadata={"author": "John Doe"},
collection_name="user_1_collection",
wait=True
)
- ファイルパスまたはBase64エンコードされたファイルをアップロードします:
document = client.upsert_document(
name="sample_document",
document_path="/path/to/sample.pdf",
metadata={"author": "John Doe"},
collection_name="user_1_collection",
wait=True
)
文書検索
- シンプルな検索:
results = client.search("what is 1+1?")
- コレクション名で検索
results = client.search("what is 1+1?", collection_name="user_1_collection")
- メタデータによる絞り込み検索
results = client.search(
"what is 1+1?",
query_filter={"on": "document", "key": "author", "value": "John Doe", "lookup": "key_lookup"}
)
コレクション管理
- コレクションの作成
collection = client.create_collection(name="user_1_collection")
- コレクションのリストを取得する:
collections = client.list_collections()
APIリファレンス
- ドキュメントのアップロード
upsert_document(name, document_url, metadata, collection_name, wait)
- 文書の検索
search(query, collection_name, query_filter)
- プール経営:
create_collection(name)
,list_collections()