AI个人学习
和实操指南

ColiVara:基于视觉嵌入的文档存储与检索服务

综合介绍

ColiVara 是一个基于视觉嵌入技术的文档存储和检索服务。它无需光学字符识别(OCR)或文本提取,避免了表格破损或图像丢失的问题。ColiVara 支持超过100种文件格式,包括 PDF、DOCX、PPTX 等,能够自动截取网页截图并进行索引。通过 ColiVara,用户可以高效地存储和检索包含丰富视觉信息的文档,提升文档管理和信息检索的效率。ColiVara 提供 Python 和 TypeScript 的 API 和 SDK,用户无需管理向量数据库(pgVector 在后台运行)。此外,ColiVara 还提供详细的文档和无缝的本地或云端快速启动指南,采用后期交互嵌入技术以提高准确性。最重要的是,ColiVara 是完全开源的。

ColiVara:基于视觉嵌入的文档存储与检索服务-1


 

功能列表

  • 文档存储:支持多种文件格式的文档上传和存储。
  • 文档检索:基于视觉嵌入技术进行高效的文档搜索和检索。
  • 自动截图:自动截取网页截图并进行索引。
  • 元数据管理:支持为文档添加元数据,便于分类和检索。
  • API 接口:提供 Python 和 TypeScript SDK,方便开发者集成和使用。
  • 集合管理:支持按集合管理文档,便于组织和分类。
  • 多模态检索:支持最先进的多模态检索功能。
  • 无需向量数据库管理:pgVector 在后台运行,用户无需管理向量数据库。
  • 开源:ColiVara 是完全开源的,用户可以自由使用和修改。

 

使用帮助

安装与配置

  1. 获取 API Key:访问 ColiVara 网站,注册并获取免费的 API Key。
  2. 安装 SDK:
    • Python:pip install colivara-py
    • TypeScript:npm install colivara-ts
  3. 配置客户端:
   from colivara_py import ColiVara
client = ColiVara(api_key='你的API Key')

文档上传

  1. 上传文档:
   document = client.upsert_document(
name="sample_document",
document_url="https://example.com/sample.pdf",
metadata={"author": "John Doe"},
collection_name="user_1_collection",
wait=True
)
  1. 上传文件路径或 Base64 编码文件:
   document = client.upsert_document(
name="sample_document",
document_path="/path/to/sample.pdf",
metadata={"author": "John Doe"},
collection_name="user_1_collection",
wait=True
)

文档检索

  1. 简单搜索:
   results = client.search("what is 1+1?")
  1. 按集合名称搜索:
   results = client.search("what is 1+1?", collection_name="user_1_collection")
  1. 按元数据过滤搜索:
   results = client.search(
"what is 1+1?",
query_filter={"on": "document", "key": "author", "value": "John Doe", "lookup": "key_lookup"}
)

集合管理

  1. 创建集合:
   collection = client.create_collection(name="user_1_collection")
  1. 获取集合列表:
   collections = client.list_collections()

API 参考

  • 文档上传:upsert_document(name, document_url, metadata, collection_name, wait)
  • 文档检索:search(query, collection_name, query_filter)
  • 集合管理:create_collection(name), list_collections()
未经允许不得转载:首席AI分享圈 » ColiVara:基于视觉嵌入的文档存储与检索服务

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文