综合介绍
ColiVara 是一个基于视觉嵌入技术的文档存储和检索服务。它无需光学字符识别(OCR)或文本提取,避免了表格破损或图像丢失的问题。ColiVara 支持超过100种文件格式,包括 PDF、DOCX、PPTX 等,能够自动截取网页截图并进行索引。通过 ColiVara,用户可以高效地存储和检索包含丰富视觉信息的文档,提升文档管理和信息检索的效率。ColiVara 提供 Python 和 TypeScript 的 API 和 SDK,用户无需管理向量数据库(pgVector 在后台运行)。此外,ColiVara 还提供详细的文档和无缝的本地或云端快速启动指南,采用后期交互嵌入技术以提高准确性。最重要的是,ColiVara 是完全开源的。
功能列表
- 文档存储:支持多种文件格式的文档上传和存储。
- 文档检索:基于视觉嵌入技术进行高效的文档搜索和检索。
- 自动截图:自动截取网页截图并进行索引。
- 元数据管理:支持为文档添加元数据,便于分类和检索。
- API 接口:提供 Python 和 TypeScript SDK,方便开发者集成和使用。
- 集合管理:支持按集合管理文档,便于组织和分类。
- 多模态检索:支持最先进的多模态检索功能。
- 无需向量数据库管理:pgVector 在后台运行,用户无需管理向量数据库。
- 开源:ColiVara 是完全开源的,用户可以自由使用和修改。
使用帮助
安装与配置
- 获取 API Key:访问 ColiVara 网站,注册并获取免费的 API Key。
- 安装 SDK:
- Python:
pip install colivara-py
- TypeScript:
npm install colivara-ts
- Python:
- 配置客户端:
from colivara_py import ColiVara
client = ColiVara(api_key='你的API Key')
文档上传
- 上传文档:
document = client.upsert_document(
name="sample_document",
document_url="https://example.com/sample.pdf",
metadata={"author": "John Doe"},
collection_name="user_1_collection",
wait=True
)
- 上传文件路径或 Base64 编码文件:
document = client.upsert_document(
name="sample_document",
document_path="/path/to/sample.pdf",
metadata={"author": "John Doe"},
collection_name="user_1_collection",
wait=True
)
文档检索
- 简单搜索:
results = client.search("what is 1+1?")
- 按集合名称搜索:
results = client.search("what is 1+1?", collection_name="user_1_collection")
- 按元数据过滤搜索:
results = client.search(
"what is 1+1?",
query_filter={"on": "document", "key": "author", "value": "John Doe", "lookup": "key_lookup"}
)
集合管理
- 创建集合:
collection = client.create_collection(name="user_1_collection")
- 获取集合列表:
collections = client.list_collections()
API 参考
- 文档上传:
upsert_document(name, document_url, metadata, collection_name, wait)
- 文档检索:
search(query, collection_name, query_filter)
- 集合管理:
create_collection(name)
,list_collections()