Introdução geral
O pdf-extract-api é uma API de extração e análise de documentos que oferece suporte à anonimização de documentos usando tecnologia de OCR de última geração e modelos compatíveis com o Ollama. Ela pode converter qualquer documento ou imagem em JSON ou Markdown estruturado, além de oferecer suporte à extração de alta precisão de dados tabulares, números e fórmulas matemáticas. Criada com base na FastAPI, a API usa o Celery para processamento assíncrono de tarefas e o Redis para armazenar em cache os resultados do OCR, garantindo um processamento eficiente e confiável dos documentos.
Lista de funções
- Conversão altamente precisa de PDF para Markdown
- Conversão de PDF para JSON
- Aprimoramento dos resultados de OCR com LLM (por exemplo, LLama 3.1)
- Exclusão de informações de identificação pessoal (PII)
- Processamento distribuído de filas (usando o Celery)
- Cache de resultados (usando Redis)
- Ferramentas CLI para enviar tarefas e processar resultados
Usando a Ajuda
Processo de instalação
- armazém de clones::
git clone https://github.com/CatchTheTornado/pdf-extract-api.git cd pdf-extract-api
2. **Instalar dependências** :
Certifique-se de que o Docker e o Docker Compose estejam instalados e, em seguida, execute o seguinte comando:
```bash
docker-compose up
Processo de uso
- Converter PDF em Markdown ::
Use as ferramentas da CLI para enviar tarefas e processar os resultados, por exemplo:
python client/cli.py ocr --file examples/example-mri.pdf --prompt_file examples/example-mri-2-json-prompt.txt
Isso converterá arquivos PDF para o formato Markdown.
- Converter PDF em JSON e remover PII ::
python client/cli.py ocr --file examples/example-invoice.pdf --prompt_file examples/example-invoice-remove-pii.txt
Isso converterá o arquivo PDF para o formato JSON e removerá as informações de identificação pessoal.
- Armazenamento em cache dos resultados de OCR ::
Use o Redis para armazenar em cache os resultados de OCR para aumentar a eficiência do processamento.
Procedimento de operação detalhado
- Início dos serviços Verifique se os contêineres do Docker estão sendo executados corretamente e se as tarefas de OCR podem ser enviadas por meio da ferramenta CLI depois que o serviço for iniciado.
- Envio de tarefas Use a ferramenta CLI para enviar tarefas de OCR, especificando o arquivo de entrada e o formato de conversão.
- resultado Após a conclusão da tarefa, os resultados serão exibidos no formato especificado e poderão ser usados diretamente ou processados posteriormente.