API de extração de texto (text-extract-api): extração visual de informações de texto, ferramenta de extração de PDF anônimo

Introdução geral

A API de extração de texto (text-extract-api) é uma ferramenta avançada projetada para extrair e analisar o conteúdo de uma variedade de formatos de documentos (por exemplo, PDF, Word, PPTX etc.). A API utiliza tecnologia de ponta de reconhecimento óptico de caracteres (OCR) e modelos compatíveis com Ollama para converter qualquer documento ou imagem em um formato JSON ou Markdown estruturado. Os principais recursos incluem extração de texto altamente precisa, remoção de informações de identificação pessoal (PII), suporte a várias estratégias de armazenamento e processamento de tarefas distribuídas. A API de extração de texto foi criada com a FastAPI e usa o Celery para processamento assíncrono de tarefas e o Redis para armazenar em cache os resultados de OCR, a fim de garantir uma experiência de processamento de documentos eficiente e confiável.

O pdf-extract-api é uma API de extração e análise de documentos que oferece suporte à anonimização de documentos usando tecnologia de OCR de última geração e modelos compatíveis com o Ollama. Ela pode converter qualquer documento ou imagem em JSON ou Markdown estruturado, além de oferecer suporte à extração de alta precisão de dados tabulares, números e fórmulas matemáticas. Criada com base na FastAPI, a API usa o Celery para processamento assíncrono de tarefas e o Redis para armazenar em cache os resultados do OCR, garantindo um processamento eficiente e confiável dos documentos.

API de extração de texto (text-extract-api): extração visual de informações de texto, ferramenta de extração de PDF anônimo-1

pdf-extract-api: documentos ou imagens PDF convertidos em JSON/Markdown, informações pessoais apagadas automaticamente-1

Lista de funções

OCR de alta precisão: use PyTorch, Marker, Llama3.2-vision e outras estratégias de OCR para obter uma extração de texto de alta precisão.
Conversão de documentos: suporte para PDF, Word, PPTX e outros documentos no formato Markdown ou JSON.
Remove PII: identifica e remove automaticamente informações de identificação pessoal dos documentos.
Processamento distribuído: use o Celery para processamento de tarefas distribuídas para aumentar a eficiência do processamento.
Mecanismo de cache: use o Redis para armazenar em cache os resultados de OCR para reduzir o tempo de processamento repetido.
Estratégia de vários armazenamentos: suporta sistema de arquivos local, Google Drive e outros métodos de armazenamento.
Ferramentas CLI: forneça ferramentas de linha de comando para facilitar aos usuários o envio de tarefas e o processamento dos resultados.

Usando a Ajuda

Processo de instalação

Faça o download e instale o Ollama.
Faça o download e instale o Docker.
Clone o repositório text-extract-api:

   git clone https://github.com/CatchTheTornado/text-extract-api.git

Vá para o diretório do projeto e inicie o contêiner do Docker:

   cd text-extract-api
docker-compose up

Uso

Conversão de documentos

Faça upload dos documentos a serem convertidos para o diretório especificado.
Use a ferramenta CLI para enviar tarefas de conversão:

   python client/cli.py ocr_upload --file examples/example.pdf --prompt_file examples/example-to-json-prompt.txt

O resultado da conversão será salvo no formato JSON ou Markdown no diretório especificado.

Remoção de PII

Fazer upload de um documento que contenha informações de identificação pessoal.
Use a ferramenta CLI para enviar tarefas de remoção de PII:

   python client/cli.py ocr_upload --file examples/example-pii.pdf --prompt_file examples/example-remove-pii.txt

Os documentos processados terão todas as informações de identificação pessoal removidas.

Fluxo de operação detalhado da função

OCR de alta precisãoO OCR é uma ferramenta de extração de texto de alta precisão para vários documentos: Ao configurar diferentes estratégias de OCR (por exemplo, Marker, Llama3.2-vision etc.), ele pode obter extração de texto de alta precisão para vários documentos. Os usuários podem escolher a estratégia de OCR mais adequada de acordo com o tipo de documento.
Conversão de documentosSuporte para PDF, Word, PPTX e outros formatos do documento serão convertidos para o formato Markdown ou JSON, para facilitar o processamento e a análise de dados subsequentes.
Remoção de PIIIdentificação e remoção automática de informações de identificação pessoal de documentos para garantir a privacidade e a segurança dos dados.
processamento distribuídoDescrição: Processamento de tarefas distribuídas usando o Celery para dar suporte a tarefas de processamento de documentos em grande escala e melhorar a eficiência do processamento.
mecanismo de cacheUse o Redis para armazenar em cache os resultados de OCR para reduzir o tempo de processamento repetitivo e melhorar o tempo de resposta do sistema.
Política de armazenamento múltiploSuporte a vários métodos de armazenamento, como sistema de arquivos local, Google Drive, etc. Os usuários podem escolher a estratégia de armazenamento adequada de acordo com suas necessidades.
Ferramentas de CLIFerramentas de linha de comando são fornecidas para que os usuários possam enviar tarefas e processar resultados com comandos simples para sua conveniência.

API de extração de texto (text-extract-api): extração visual de informações de texto, ferramenta de extração de PDF anônimo

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Uso

Conversão de documentos

Remoção de PII

Fluxo de operação detalhado da função

Artigos relacionados

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama

Chunkr: um serviço completo que usa modelos visuais para a ingestão de documentos e a divisão inteligente em blocos com base na hierarquia de parágrafos do texto

Docling: suporte a uma variedade de formatos, análise de documentos e exportação para Markdown e JSON, suporte a PDF, OCR

Datalab: modelo de IA de reconhecimento de OCR dedicado, PDF para Markdown (código aberto/API)

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Novos lançamentos

Artigos populares

Hot Tags.

Chefe do Círculo de Compartilhamento de IA