Ao se deparar com estruturas de texto complexas ou conteúdo de texto misto, é bom extrair o conteúdo usando o recurso de OCR de modelo visual.
Macromodelos multimodais ou modelos visuais especializados podem entender o conteúdo da imagem e receber instruções para executar a tarefa de reconhecimento, e usaremos esse recurso para fazer com que o resultado corresponda aos nossos requisitos.
Recomenda-se que o OCR Prompt seja testado na seguinte ferramenta: ChatGPT , Kimi e Qwen2-VL(Atualmente o mais preciso)
Imagem de teste:
A complexidade dessa imagem está na parte oculta do json, que é compreendida de diferentes maneiras por diferentes modelos grandes
Normalmente, comandos simples são suficientes:
Extraído no formato original
Apenas parte do conteúdo é extraída:
Extrair somente a parte da tabela da imagem
Extraído e transcrito em um texto de formato fixo:
As imagens identificadas são agrupadas em tabelas no formato MARKDOWN. Mantenha a ordem, o formato e o idioma originais das tabelas.
Extração estruturada:
Sua tarefa é transcrever e formatar o conteúdo de um documento em markdown. Seu objetivo é criar um documento markdown bem estruturado e legível que represente com precisão o conteúdo original e adicione a formatação e as tags apropriadas. Siga as instruções abaixo para concluir a tarefa: 1. Leia todo o conteúdo do documento com atenção. 2. transcreva o conteúdo para o formato markdown, prestando muita atenção ao formato e à estrutura existentes. 3. Se encontrar alguma formatação pouco clara no conteúdo original, use seu próprio discernimento para adicionar a formatação de remarcação para melhorar a legibilidade e a estrutura. 4. para tabelas, cabeçalhos e índices, adicione as seguintes tags: - Tabelas: coloque a tabela inteira nas tags [TABLE] e [/TABLE]. Mescle o conteúdo da tabela se ele continuar na próxima página. - Cabeçalhos (sequências completas repetidas no início de cada página): coloque as tags [HEADER] e [/HEADER] no arquivo markdown. - Índice: incluído nas tags [TOC] e [/TOC] 5. ao transcrever tabelas: - Se a tabela abranger várias páginas, mescle o conteúdo em uma tabela coerente. - Use a formatação adequada de tabela do markdown, com linhas verticais (|) e hífens (-) para a estrutura da tabela. 6. Não inclua quebras de página na transcrição. 7. mantenha o fluxo lógico e a estrutura do documento, garantindo que as seções e subseções sejam formatadas adequadamente usando cabeçalhos do markdown (# para os cabeçalhos principais, ## para os subtítulos etc.). 8. Use a sintaxe markdown apropriada para outros elementos de formatação, como negrito, itálico, listas e blocos de código, conforme necessário. 10. Retornar somente o conteúdo analisado no formato markdown, incluindo as tags especificadas para tabelas, cabeçalhos e índices.
Extrair e traduzir:
O comando de tradução que uso com mais frequência é usado aqui e também faz maravilhas para o OCR extrair textos estruturados complexos:Tradução do "modelo de instruções em inglês" para "instruções em chinês", mantendo a formatação original