Introdução geral
O wdoc é um poderoso sistema RAG (Retrieval Augmentation Generation) projetado para processar e analisar documentos grandes e diversos. Ele é capaz de recuperar uma grande variedade de tipos de documentos, incluindo PDFs, páginas da Web, vídeos do YouTube, arquivos de áudio etc. O wdoc é particularmente adequado para processar grandes quantidades de fontes de informações, o que o torna uma ferramenta ideal para pesquisadores, estudantes e profissionais que precisam trabalhar com grandes quantidades de informações. O sistema utiliza a biblioteca LangChain para processamento de documentos, oferece suporte a uma ampla variedade de provedores de LLM (Large Language Model) e oferece recursos de recuperação e resumo altamente precisos. O wdoc ainda está em constante desenvolvimento, e o feedback dos usuários e as solicitações de recursos são bem-vindos.
Lista de funções
- Suporte a vários tipos de arquivosSuporte a mais de 15 tipos de arquivos, incluindo PDFs, páginas da Web, vídeos do YouTube, arquivos de áudio e muito mais.
- Recuperação e resumo de alta precisãoRecuperação de documentos: fornece recuperação e resumo de documentos altamente precisos por meio de pesquisa incorporada e processamento semântico em lote.
- Suporte multi-LLMVários provedores de LLM são suportados, incluindo modelos locais e modelos privados com camadas de segurança adicionais.
- Funções avançadas do RAGO LLM fraco é usado para filtrar documentos irrelevantes e o LLM forte para fornecer respostas precisas e mesclar respostas por meio de agrupamento e classificação semântica.
- Fácil de expandirwdoc: Não é apenas uma ferramenta, mas também uma biblioteca que permite aos usuários usar o wdoc em outros projetos Python.
- Documentação e ajuda detalhadasDocumentação rica e informações de ajuda são fornecidas para que os usuários comecem a trabalhar rapidamente.
Usando a Ajuda
montagem
Atualmente, o wdoc requer a versão 3.11 do Python para ser executado. Certifique-se de que você tenha a versão correta do Python e siga as etapas abaixo para instalá-lo:
- Use o pip para instalar:
pip install -U wdoc
- ou instalar uma ramificação específica do git:
pip install git+https://github.com/thiswillbeyourgithub/wdoc@dev
- Recomenda-se instalar o suporte a pdftotext e fasttext:
pip install -U wdoc[pdftotext] wdoc[fasttext]
fazer uso de
- Adicione a chave de API necessária como uma variável de ambiente:
export OPENAI_API_KEY="Sua chave de API"
- Iniciar o wdoc:
wdoc --task=query --path=seu caminho de documento
Função Fluxo de operação
Pesquisa de documentos
Use o wdoc para consultar o conteúdo de um documento:
wdoc --task=query --path=seu caminho de documento --filetype=pdf --query="query content"
O comando carregará o arquivo PDF do caminho especificado e o recuperará de acordo com a consulta e retornará os documentos relevantes.
Resumo da documentação
Use wdoc para resumir o documento:
wdoc --task=summarize --path=seu caminho de documento --filetype=pdf
O comando resumirá o caminho especificado para o arquivo PDF e retornará um resumo detalhado do conteúdo do documento.
Tarefas combinadas
Você também pode combinar tarefas de consulta e resumo:
wdoc --task=summarize_then_query --path=seu caminho de documento --filetype=pdf
Esse comando primeiro resumirá o conteúdo do documento e, em seguida, permitirá que você faça outras perguntas sobre o resumo.
Recursos avançados
O wdoc oferece suporte a uma variedade de recursos avançados, como:
- Suporte a vários tipos de arquivosCarregamento de vários tipos de arquivos por meio de caminhos recursivos, arquivos vinculados, etc.
- Funções avançadas do RAGMelhorar a precisão da recuperação usando técnicas como a pesquisa com várias consultas e o processamento semântico em lote.
- Suporte local e privado para LLMGarantir que os dados estejam seguros e não vazem para provedores externos.
- Documentação e ajuda detalhadas: através de
wdoc --help
Obtenha mais informações sobre como usá-lo.