Consulta de OCR para extracción de texto de imágenes mediante modelos visuales
Comandos de utilidad de AIActualizado hace 10 meses Círculo de intercambio de inteligencia artificial 21.9K 00
Cuando nos enfrentamos a estructuras de texto complejas, o a contenidos de texto mixto, es bueno extraer el contenido utilizando la capacidad de OCR del modelo visual.
Los macromodelos multimodales o modelos visuales especializados pueden comprender el contenido de la imagen y recibir instrucciones para realizar la tarea de reconocimiento, y utilizaremos esta capacidad para que el resultado se ajuste a nuestros requisitos.
Se recomienda probar OCR Prompt en la siguiente herramienta: ChatGPT , Kimi y Qwen2-VL(Actualmente el más preciso)
Imagen de prueba:
La complejidad de esta imagen radica en la parte json oscurecida, que es entendida de diferentes maneras por diferentes grandes modelos

Los comandos simples suelen estar bien:
按照原文格式提取
Sólo se extrae una parte del contenido:
仅提取图片中的表格部分
Extraído y transcrito en texto de formato fijo:
识别图片后整理为MARKDOWN格式表格,请保持表格原始顺序、格式和语言
Extracción estructurada:
您的任务是将文件内容转录并格式化为 markdown。您的目标是创建一个结构良好、可读性强的 markdown 文档,该文档准确表示原始内容,同时添加适当的格式和标签。 请按照以下说明完成任务: 1. 仔细阅读整个文件内容。 2. 将内容转录为 markdown 格式,密切关注现有的格式和结构。 3. 如果您在原始内容中发现任何不清楚的格式,请自行判断添加适当的 markdown 格式以提高可读性和结构。 4. 对于表格、标题和目录,请添加以下标签: - 表格:将整个表格括在 [TABLE] 和 [/TABLE] 标签中。如果表格内容在下一页继续,请合并表格内容。 - 标题(在每页开头重复的完整字符串):括在 markdown 文件内的 [HEADER] 和 [/HEADER] 标签中。 - 目录:用 [TOC] 和 [/TOC] 标签括起来 5. 转录表格时: - 如果表格跨越多页,请将内容合并为一个连贯的表格。 - 使用适当的 markdown 表格格式,表格结构使用竖线 (|) 和连字符 (-)。 6. 不要在转录中包含分页符。 7. 保持文档的逻辑流程和结构,确保使用 markdown 标题正确格式化章节和小节(# 表示主标题,## 表示副标题等)。 8. 根据需要对其他格式元素(如粗体、斜体、列表和代码块)使用适当的 markdown 语法。 10. 仅返回 markdown 格式的解析内容,包括表格、标题和目录的指定标签。
Extraer y traducir:
El comando de traducción que utilizo más a menudo se usa aquí, y también funciona de maravilla en OCR para extraer texto estructurado complejo:Traducción de la "plantilla de instrucciones en inglés" a "instrucciones en chino", conservando el formato original.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




