Essa diretriz é derivada do Visão Parse que é dividido em duas etapas para extrair documentos markdown.
Prompt de análise de imagem (img_analysis.prompt).
Analise essa imagem e retorne uma descrição JSON detalhada, incluindo qualquer texto detectado, imagens detectadas, tabelas detectadas, texto extraído e pontuação de confiança para o texto extraído. A pontuação de confiança para o texto extraído deve ser um valor flutuante entre 0 e 1. A pontuação de confiança para o texto extraído deve ser um valor flutuante entre 0 e 1. Se você não puder determinar determinados detalhes, deixe esses campos vazios.
tradução de palavras-chave
Analisa essa imagem e retorna uma descrição JSON detalhada de qualquer texto detectado, a imagem detectada, a tabela detectada, o texto extraído e sua pontuação de confiança. A pontuação de confiança do texto extraído deve ser um valor de ponto flutuante entre 0 e 1. Deixe esses campos em branco se alguns detalhes não puderem ser determinados.
Modelo de prompt de formatação de markdown (md_prompt.j2).
{% autoescape true %} Sua tarefa é analisar a imagem fornecida e extrair o conteúdo textual no formato markdown. {% if confidence_score_text is defined and confidence_score_text is number %} {% se confidence_score_text > 0,6 %} - Verificar se o texto extraído corresponde ao conteúdo da imagem: {{ extracted_text|escape|trim }}. - Assegure-se de que a formatação de texto markdown para {{ extracted_text|escape|trim }} seja aplicada corretamente analisando a imagem. - Certifique-se de que a formatação de texto de remarcação para baixo para {{texto extraído|escape|trim }} seja aplicada corretamente analisando a imagem. Não altere nenhum conteúdo do texto extraído original ao aplicar a formatação de texto de remarcação para baixo. {Não altere nenhum conteúdo do texto original extraído ao aplicar a formatação de texto markdown.} - Reanalise cuidadosamente o texto da imagem, pois a pontuação de confiança inicial foi baixa. - Converta a imagem fornecida em formato markdown e certifique-se de que todo o conteúdo da imagem esteja incluído. {Converta a imagem fornecida em formato markdown e certifique-se de que todo o conteúdo da imagem esteja incluído.} {% endif %} {% if tables_detected is defined and tables_detected|string == "Yes" %} - Preserve a estrutura tabular no formato markdown usando | para colunas e - para o separador de linha do cabeçalho. - Certifique-se de que os valores das células estejam alinhados corretamente dentro das colunas da tabela e que os dados da tabela não sejam distorcidos. - Certifique-se de que os valores das células estejam alinhados corretamente nas colunas da tabela e que os dados da tabela não estejam distorcidos. Mantenha o posicionamento original da tabela no documento digitalizado. {Não inclua explicações ou comentários adicionais.} - Preserve a formatação de texto do markdown, se houver, como negrito, itálico, sublinhado, cabeçalhos, marcadores, links ou outros elementos. - Não omita nenhum conteúdo textual da imagem fornecida e não inclua explicações, notas ou comentários adicionais. - Certifique-se de que o conteúdo não tenha formatação desnecessária e, ao mesmo tempo, preserve a formatação original o máximo possível. - Estritamente, não gere cercas de código ou backticks como ``` ou ```markdown. {% endautoescape %}
tradução de palavras-chave
{% autoescape true %} Sua tarefa é analisar a imagem fornecida e extrair o conteúdo do texto no formato Markdown. {% if confidence_score_text is defined and confidence_score_text is number %} {% se confidence_score_text > 0,6 %} - Verifique se o texto extraído corresponde ao conteúdo da imagem: {{ extracted_text|escape|trim }}. - Certifique-se de que a formatação de texto Markdown de {{ extracted_text|escape|trim }} seja aplicada corretamente analisando a imagem. - Não altere rigorosamente nada no texto extraído original ao aplicar a formatação de texto Markdown. {% else %} - Analise novamente o texto da imagem com cuidado, pois a pontuação de confiança inicial é baixa. - Converta a imagem fornecida para o formato Markdown e certifique-se de que tudo na imagem esteja incluído. {% endif %} {% endif %} {% if tables_detected is defined and tables_detected|string == "Yes" %} - Use | para colunas e - para separadores de linha de cabeçalho para preservar a estrutura da tabela no formato Markdown. - Certifique-se de que os valores das células estejam alinhados corretamente nas colunas da tabela e que os dados da tabela não sejam distorcidos. - Mantenha a tabela em sua posição original no documento digitalizado. Não inclua nenhuma nota ou comentário adicional. {% endif %} - Preserve a formatação de texto do Markdown, como negrito, itálico, sublinhado, títulos, marcadores, links ou outros elementos, se houver. - Não deixe de fora nenhum conteúdo de texto na imagem fornecida, nem inclua descrições, notas ou comentários adicionais. - Certifique-se de que o conteúdo esteja livre de formatação desnecessária, preservando a formatação original o máximo possível. - Não gere blocos de código ou citações, como ```` ou ```markdown. {% endautoescape %}
Deixe-me analisar todas as variáveis referenciadas no modelo md_prompt.j2:
- confidence_score_text
{% se confidence_score_text estiver definido e confidence_score_text for um número %}
{% se confidence_score_text > 0,6 %}
- Tipo: numérico (número)
- Objetivo: armazenar pontuações de confiança para extração de texto
- Intervalo de valores: número de ponto flutuante entre 0 e 1
- Usado para determinar se o texto precisa ser reanalisado
- texto_extraído
{{texto_extraído|escape|trim }}
- Tipo: string(string)
- Objetivo: armazenar o conteúdo do texto original extraído da imagem
- São usados dois filtros:
- escape: escapa de caracteres especiais
- trim: remover espaços em branco
- tabelas_detectadas
{% if tables_detected is defined and tables_detected|string == "Yes" %}
- Tipo: string(string)
- Finalidade: Identifica se um formulário foi detectado
- Valores possíveis: "Sim" ou "Não".
Essas variáveis vêm do modelo ImageDescription no código (definido em llm.py):
class ImageDescription(BaseModel).
"""Esquema do modelo para descrição da imagem."""""
text_detected: Literal["Yes", "No"]
tables_detected: Literal["Yes", "No"]
tables_detected: Literal["Yes", "No"] tables_extracted_text: str
confidence_score_text: float
Esse modelo corresponde à estrutura JSON retornada por img_analysis.prompt, garantindo a segurança do tipo e a consistência dos dados. Essas variáveis são geradas durante a fase de análise da imagem (img_analysis.prompt) e, em seguida, passadas para o modelo de geração de markdown (md_prompt.j2) para uso.