Aprendizagem pessoal com IA
e orientação prática

API de extração de texto (text-extract-api): extração visual de informações de texto, ferramenta de extração de PDF anônimo

Introdução geral

A API de extração de texto (text-extract-api) é uma ferramenta avançada projetada para extrair e analisar o conteúdo de uma variedade de formatos de documentos (por exemplo, PDF, Word, PPTX etc.). A API utiliza tecnologia de ponta de reconhecimento óptico de caracteres (OCR) e modelos compatíveis com Ollama para converter qualquer documento ou imagem em um formato JSON ou Markdown estruturado. Os principais recursos incluem extração de texto altamente precisa, remoção de informações de identificação pessoal (PII), suporte a várias estratégias de armazenamento e processamento de tarefas distribuídas. A API de extração de texto foi criada com a FastAPI e usa o Celery para processamento assíncrono de tarefas e o Redis para armazenar em cache os resultados de OCR, a fim de garantir uma experiência de processamento de documentos eficiente e confiável.

O pdf-extract-api é uma API de extração e análise de documentos que oferece suporte à anonimização de documentos usando tecnologia de OCR de última geração e modelos compatíveis com o Ollama. Ela pode converter qualquer documento ou imagem em JSON ou Markdown estruturado, além de oferecer suporte à extração de alta precisão de dados tabulares, números e fórmulas matemáticas. Criada com base na FastAPI, a API usa o Celery para processamento assíncrono de tarefas e o Redis para armazenar em cache os resultados do OCR, garantindo um processamento eficiente e confiável dos documentos.


API de extração de texto (text-extract-api): extração visual de informações de texto, ferramenta de extração de PDF anônimo-1

 

pdf-extract-api: documentos ou imagens PDF convertidos em JSON/Markdown, informações pessoais apagadas automaticamente-1

 

Lista de funções

  • OCR de alta precisão: use PyTorch, Marker, Llama3.2-vision e outras estratégias de OCR para obter uma extração de texto de alta precisão.
  • Conversão de documentos: suporte para PDF, Word, PPTX e outros documentos no formato Markdown ou JSON.
  • Remove PII: identifica e remove automaticamente informações de identificação pessoal dos documentos.
  • Processamento distribuído: use o Celery para processamento de tarefas distribuídas para aumentar a eficiência do processamento.
  • Mecanismo de cache: use o Redis para armazenar em cache os resultados de OCR para reduzir o tempo de processamento repetido.
  • Estratégia de vários armazenamentos: suporta sistema de arquivos local, Google Drive e outros métodos de armazenamento.
  • Ferramentas CLI: forneça ferramentas de linha de comando para facilitar aos usuários o envio de tarefas e o processamento dos resultados.

 

Usando a Ajuda

Processo de instalação

  1. Faça o download e instale o Ollama.
  2. Faça o download e instale o Docker.
  3. Clone o repositório text-extract-api:
   git clone https://github.com/CatchTheTornado/text-extract-api.git
  1. Vá para o diretório do projeto e inicie o contêiner do Docker:
   cd text-extract-api
docker-compose up

Uso

Conversão de documentos

  1. Faça upload dos documentos a serem convertidos para o diretório especificado.
  2. Use a ferramenta CLI para enviar tarefas de conversão:
   python client/cli.py ocr_upload --file examples/example.pdf --prompt_file examples/example-to-json-prompt.txt
  1. O resultado da conversão será salvo no formato JSON ou Markdown no diretório especificado.

Remoção de PII

  1. Fazer upload de um documento que contenha informações de identificação pessoal.
  2. Use a ferramenta CLI para enviar tarefas de remoção de PII:
   python client/cli.py ocr_upload --file examples/example-pii.pdf --prompt_file examples/example-remove-pii.txt
  1. Os documentos processados terão todas as informações de identificação pessoal removidas.

Fluxo de operação detalhado da função

  1. OCR de alta precisãoO OCR é uma ferramenta de extração de texto de alta precisão para vários documentos: Ao configurar diferentes estratégias de OCR (por exemplo, Marker, Llama3.2-vision etc.), ele pode obter extração de texto de alta precisão para vários documentos. Os usuários podem escolher a estratégia de OCR mais adequada de acordo com o tipo de documento.
  2. Conversão de documentosSuporte para PDF, Word, PPTX e outros formatos do documento serão convertidos para o formato Markdown ou JSON, para facilitar o processamento e a análise de dados subsequentes.
  3. Remoção de PIIIdentificação e remoção automática de informações de identificação pessoal de documentos para garantir a privacidade e a segurança dos dados.
  4. processamento distribuídoDescrição: Processamento de tarefas distribuídas usando o Celery para dar suporte a tarefas de processamento de documentos em grande escala e melhorar a eficiência do processamento.
  5. mecanismo de cacheUse o Redis para armazenar em cache os resultados de OCR para reduzir o tempo de processamento repetitivo e melhorar o tempo de resposta do sistema.
  6. Política de armazenamento múltiploSuporte a vários métodos de armazenamento, como sistema de arquivos local, Google Drive, etc. Os usuários podem escolher a estratégia de armazenamento adequada de acordo com suas necessidades.
  7. Ferramentas de CLIFerramentas de linha de comando são fornecidas para que os usuários possam enviar tarefas e processar resultados com comandos simples para sua conveniência.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " API de extração de texto (text-extract-api): extração visual de informações de texto, ferramenta de extração de PDF anônimo

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil