Aprendizagem pessoal com IA
e orientação prática

pdf-extract-api: ferramenta de extração de PDF com anonimização de informações pessoais de execução local

Introdução geral

O pdf-extract-api é uma API de extração e análise de documentos que oferece suporte à anonimização de documentos usando tecnologia de OCR de última geração e modelos compatíveis com o Ollama. Ela pode converter qualquer documento ou imagem em JSON ou Markdown estruturado, além de oferecer suporte à extração de alta precisão de dados tabulares, números e fórmulas matemáticas. Criada com base na FastAPI, a API usa o Celery para processamento assíncrono de tarefas e o Redis para armazenar em cache os resultados do OCR, garantindo um processamento eficiente e confiável dos documentos.

pdf-extract-api: documentos ou imagens PDF convertidos em JSON/Markdown, informações pessoais apagadas automaticamente-1


 

Lista de funções

  • Conversão altamente precisa de PDF para Markdown
  • Conversão de PDF para JSON
  • Aprimoramento dos resultados de OCR com LLM (por exemplo, LLama 3.1)
  • Exclusão de informações de identificação pessoal (PII)
  • Processamento distribuído de filas (usando o Celery)
  • Cache de resultados (usando Redis)
  • Ferramentas CLI para enviar tarefas e processar resultados

 

Usando a Ajuda

Processo de instalação

  1. armazém de clones::
    git clone https://github.com/CatchTheTornado/pdf-extract-api.git
    cd pdf-extract-api
    
2. **Instalar dependências** :
Certifique-se de que o Docker e o Docker Compose estejam instalados e, em seguida, execute o seguinte comando:
```bash
docker-compose up

Processo de uso

  1. Converter PDF em Markdown ::
    Use as ferramentas da CLI para enviar tarefas e processar os resultados, por exemplo:
python client/cli.py ocr --file examples/example-mri.pdf --prompt_file examples/example-mri-2-json-prompt.txt

Isso converterá arquivos PDF para o formato Markdown.

  1. Converter PDF em JSON e remover PII ::
python client/cli.py ocr --file examples/example-invoice.pdf --prompt_file examples/example-invoice-remove-pii.txt

Isso converterá o arquivo PDF para o formato JSON e removerá as informações de identificação pessoal.

  1. Armazenamento em cache dos resultados de OCR ::
    Use o Redis para armazenar em cache os resultados de OCR para aumentar a eficiência do processamento.

Procedimento de operação detalhado

  • Início dos serviços Verifique se os contêineres do Docker estão sendo executados corretamente e se as tarefas de OCR podem ser enviadas por meio da ferramenta CLI depois que o serviço for iniciado.
  • Envio de tarefas Use a ferramenta CLI para enviar tarefas de OCR, especificando o arquivo de entrada e o formato de conversão.
  • resultado Após a conclusão da tarefa, os resultados serão exibidos no formato especificado e poderão ser usados diretamente ou processados posteriormente.
Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " pdf-extract-api: ferramenta de extração de PDF com anonimização de informações pessoais de execução local

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil