Aprendizagem pessoal com IA
e orientação prática
讯飞绘镜

MegaParse: analisa cada tipo de documento em dados disponíveis no LLM, preservando todas as informações do documento, como tabelas e imagens, em sua totalidade.

Introdução geral

O MegaParse é uma ferramenta poderosa e versátil de análise de documentos projetada para otimizar o processamento de dados para o Large Language Model (LLM). Não importa se você está trabalhando com texto, PDF, apresentações do PowerPoint ou documentos do Word, o MegaParse facilita e garante que nenhuma informação seja perdida no processo de análise. Desenvolvida pela QuivrHQ, a ferramenta é de código aberto e de uso gratuito, e foi projetada para fornecer serviços de análise de arquivos rápidos e eficientes para uma ampla variedade de formatos de arquivos, incluindo documentos de texto, PDF, PowerPoint, Excel, CSV e Word.

MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息-1


 

Lista de funções

  • analisador multifuncionalSuporte a vários tipos de arquivos, incluindo documentos de texto, PDF, PowerPoint, Excel, CSV e Word.
  • Nenhuma informação perdidaGarantia de que nenhuma informação seja perdida no processo de análise.
  • rápido e eficienteO núcleo do design se concentra na velocidade e na eficiência.
  • Código aberto e gratuitoProjeto de código aberto, de uso gratuito.
  • Suporte a vários conteúdosSuporte para análise de tabelas, índices, cabeçalhos, rodapés e imagens.

 

Três modos de análise.

  • UnstructuredParser
  • Analisador visual (MegaParseVision) - suporte para modelos multimodais, como GPT-4V e Claude 3
  • LlamaParser - Recursos de análise aprimorados via Llama Cloud

Desempenho.
De acordo com o teste de benchmark, o modo MegaParseVision tem uma taxa de similaridade de 0,87, que é o melhor modo de análise em termos de desempenho.

Principais cenários de aplicação.

  • Necessidade de importar vários documentos para o sistema LLM para processamento
  • Cenários que exigem que a formatação do documento e a integridade do conteúdo sejam mantidas
  • Tarefas de processamento de documentos em lote

O projeto está em desenvolvimento ativo, com planos de adicionar mais recursos, como.

  • Aprimoramentos no inspetor de tabelas
  • Adicionar pós-processamento modular
  • Adição de suporte a saída estruturada

 

Usando a Ajuda

Processo de instalação

  1. Instalação do MegaParse::
    pip install megaparse
    
  2. Configuração de chaves de APIColoque seu OpenAI ou Antrópica A chave da API é adicionada ao .env Documentação.
  3. Instalação de dependências::
    • Para imagens e arquivos PDF, instale poppler responder cantando tesseract.
    • Se estiver usando um Mac, também será necessário instalar libmagic::
      brew install libmagic
      

Usando o MegaParse

  1. Importar MegaParse::
    from megaparse import MegaParse
    from langchain_openai import ChatOpenAI
    from megaparse.parser.unstructured_parser import UnstructuredParser
    parser = UnstructuredParser()
    megaparse = MegaParse(parser)
    response = megaparse.load("./test.pdf")
    print(response)
    megaparse.save("./test.md")
    
  2. Usando o MegaParse Vision::
    from megaparse import MegaParse
    from langchain_openai import ChatOpenAI
    from megaparse.parser.megaparse_vision import MegaParseVision
    model = ChatOpenAI(model="gpt-4o", api_key=os.getenv("OPENAI_API_KEY"))
    parser = MegaParseVision(model=model)
    megaparse = MegaParse(parser)
    response = megaparse.load("./test.pdf")
    print(response)
    megaparse.save("./test.md")
    

Aumento dos resultados com o LlamaParse

  1. Crie uma conta no Llama Cloud e obtenha uma chave de API.
  2. Alterar o analisador para LlamaParser::
    from megaparse import MegaParse
    from langchain_openai import ChatOpenAI
    from megaparse.parser.llama_parser import LlamaParser
    parser = LlamaParser(api_key=os.getenv("LLAMA_CLOUD_API_KEY"))
    megaparse = MegaParse(parser)
    response = megaparse.load("./test.pdf")
    print(response)
    megaparse.save("./test.md")
    

Usado como uma API

  1. Usando o MakeFile::
    Execute-o no diretório raiz do projeto:

    make dev
    
  2. Acesso a documentos::
    Abra seu navegador para acessar localhost:8000/docs Exibir diferentes informações do ponto de extremidade.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " MegaParse: analisa cada tipo de documento em dados disponíveis no LLM, preservando todas as informações do documento, como tabelas e imagens, em sua totalidade.
pt_BRPortuguês do Brasil