Introdução geral
O ColiVara é um serviço de armazenamento e recuperação de documentos baseado na tecnologia de incorporação visual. Ele elimina a necessidade de reconhecimento óptico de caracteres (OCR) ou extração de texto e evita o problema de formulários quebrados ou imagens perdidas. O ColiVara é compatível com mais de 100 formatos de arquivo, incluindo PDF, DOCX, PPTX etc., e é capaz de interceptar e indexar automaticamente capturas de tela de páginas da Web. O ColiVara permite armazenar e recuperar com eficiência documentos ricos em informações visuais, aprimorando o gerenciamento de documentos e a recuperação de informações. O ColiVara fornece APIs e SDKs para Python e TypeScript, para que você não precise gerenciar bancos de dados vetoriais (o pgVector é executado em segundo plano). Além disso, o ColiVara fornece documentação detalhada e guias de início rápido locais ou baseados na nuvem, usando a tecnologia de incorporação pós-interativa para aumentar a precisão. O melhor de tudo é que o ColiVara é totalmente de código aberto.
Lista de funções
- Armazenamento de documentos: suporta o upload e o armazenamento de documentos em vários formatos de arquivo.
- Recuperação de documentos: pesquisa e recuperação eficientes de documentos com base na tecnologia de incorporação visual.
- Captura de tela automática: tire automaticamente capturas de tela de páginas da Web e indexe-as.
- Gerenciamento de metadados: suporte para adicionar metadados a documentos para facilitar a classificação e a recuperação.
- Interface API: fornece SDKs Python e TypeScript para facilitar a integração e o uso pelos desenvolvedores.
- Gerenciamento de coleções: suporta o gerenciamento de documentos por coleções para facilitar a organização e a classificação.
- Pesquisa multimodal: suporta a função de pesquisa multimodal mais avançada.
- Não é necessário gerenciar o banco de dados vetorial: o pgVector é executado em segundo plano e o usuário não precisa gerenciar o banco de dados vetorial.
- Código aberto: o ColiVara é totalmente de código aberto e os usuários são livres para usá-lo e modificá-lo.
Usando a Ajuda
Instalação e configuração
- Obter uma chave de API: visite o site do ColiVara para se registrar e obter uma chave de API gratuita.
- Instale o SDK:
- Python:
pip install colivara-py
- TypeScript:
npm install colivara-ts
- Python:
- Configure o cliente:
from colivara_py import ColiVara
cliente = ColiVara(api_key='Sua chave de API')
Upload de documentos
- Faça o upload do documento:
document = client.upsert_document(
name="sample_document",
document_url="https://example.com/sample.pdf",
collection_name="user_1_collection",
wait=True
)
- Carregue o caminho do arquivo ou o arquivo codificado em Base64:
document = client.upsert_document(
name="sample_document",
name="sample_document", document_path="/path/to/sample.pdf",
collection_name="user_1_collection",
wait=True
)
pesquisa de documentos
- Pesquisa simples:
resultados = client.search("what is 1+1?")
- Pesquisar por nome de coleção:
results = client.search("what is 1+1?", collection_name="user_1_collection")
- Filtrar a pesquisa por metadados:
resultados = client.search(
"what is 1+1?",
query_filter={"on": "document", "key": "author", "value": "John Doe", "lookup": "key_lookup"}
)
Gerenciamento de coleções
- Criação de coleções:
collection = client.create_collection(name="user_1_collection")
- Obter a lista de coleções:
coleções = client.list_collections()
Referência da API
- Upload de documentos:
upsert_document(name, document_url, metadata, collection_name, wait)
- Recuperação de documentos:
search(query, collection_name, query_filter)
- Gerenciamento em pool:
create_collection(name)
,list_collections()