Introdução geral
O MegaParse é uma ferramenta poderosa e versátil de análise de documentos projetada para otimizar o processamento de dados para o Large Language Model (LLM). Não importa se você está trabalhando com texto, PDF, apresentações do PowerPoint ou documentos do Word, o MegaParse facilita e garante que nenhuma informação seja perdida no processo de análise. Desenvolvida pela QuivrHQ, a ferramenta é de código aberto e de uso gratuito, e foi projetada para fornecer serviços de análise de arquivos rápidos e eficientes para uma ampla variedade de formatos de arquivos, incluindo documentos de texto, PDF, PowerPoint, Excel, CSV e Word.
Lista de funções
- analisador multifuncionalSuporte a vários tipos de arquivos, incluindo documentos de texto, PDF, PowerPoint, Excel, CSV e Word.
- Nenhuma informação perdidaGarantia de que nenhuma informação seja perdida no processo de análise.
- rápido e eficienteO núcleo do design se concentra na velocidade e na eficiência.
- Código aberto e gratuitoProjeto de código aberto, de uso gratuito.
- Suporte a vários conteúdosSuporte para análise de tabelas, índices, cabeçalhos, rodapés e imagens.
Três modos de análise.
- UnstructuredParser
- Analisador visual (MegaParseVision) - suporte para modelos multimodais, como GPT-4V e Claude 3
- LlamaParser - Recursos de análise aprimorados via Llama Cloud
Desempenho.
De acordo com o teste de benchmark, o modo MegaParseVision tem uma taxa de similaridade de 0,87, que é o melhor modo de análise em termos de desempenho.
Principais cenários de aplicação.
- Necessidade de importar vários documentos para o sistema LLM para processamento
- Cenários que exigem que a formatação do documento e a integridade do conteúdo sejam mantidas
- Tarefas de processamento de documentos em lote
O projeto está em desenvolvimento ativo, com planos de adicionar mais recursos, como.
- Aprimoramentos no inspetor de tabelas
- Adicionar pós-processamento modular
- Adição de suporte a saída estruturada
Usando a Ajuda
Processo de instalação
- Instalação do MegaParse::
pip install megaparse
- Configuração de chaves de APIColoque seu OpenAI ou Antrópica A chave da API é adicionada ao
.env
Documentação. - Instalação de dependências::
- Para imagens e arquivos PDF, instale
poppler
responder cantandotesseract
. - Se estiver usando um Mac, também será necessário instalar
libmagic
::brew install libmagic
- Para imagens e arquivos PDF, instale
Usando o MegaParse
- Importar MegaParse::
from megaparse import MegaParse from langchain_openai import ChatOpenAI de megaparse.parser.unstructured_parser import UnstructuredParser parser = UnstructuredParser() megaparse = MegaParse(parser) resposta = megaparse.load(". /test.pdf") print(response) megaparse.save(". /test.md")
- Usando o MegaParse Vision::
from megaparse import MegaParse from langchain_openai import ChatOpenAI de megaparse.parser.megaparse_vision import MegaParseVision model = ChatOpenAI(model="gpt-4o", api_key=os.getenv("OPENAI_API_KEY")) parser = MegaParseVision(model=model) megaparse = MegaParse(parser) response = megaparse.load(". /test.pdf") print(response) megaparse.save(". /test.md")
Aumento dos resultados com o LlamaParse
- Crie uma conta no Llama Cloud e obtenha uma chave de API.
- Alterar o analisador para LlamaParser::
from megaparse import MegaParse from langchain_openai import ChatOpenAI de megaparse.parser.llama_parser import LlamaParser parser = LlamaParser(api_key=os.getenv("LLAMA_CLOUD_API_KEY")) megaparse = MegaParse(parser) response = megaparse.load(". /test.pdf") print(response) megaparse.save(". /test.md")
Usado como uma API
- Usando o MakeFile::
Execute-o no diretório raiz do projeto:fazer desenvolvimento
- Acesso a documentos::
Abra seu navegador para acessarlocalhost:8000/docs
Exibir diferentes informações do ponto de extremidade.