Invite OCR pour l'extraction de texte d'image à l'aide de modèles visuels

Lorsque l'on est confronté à des structures de texte complexes ou à des contenus mixtes, il est préférable d'extraire le contenu à l'aide de la capacité d'OCR du modèle visuel.

Les macromodèles multimodaux ou les modèles visuels spécialisés peuvent comprendre le contenu de l'image et recevoir des instructions pour effectuer la tâche de reconnaissance, et nous utiliserons cette capacité pour faire en sorte que le résultat corresponde à nos exigences.

 

Il est recommandé de tester l'OCR Prompt avec l'outil suivant : ChatGPT , Kimi , Qwen2-VL(actuellement la plus précise)

 

Image de test :

La complexité de cette image réside dans la partie json masquée, qui est comprise de différentes manières par les différents modèles.

利用视觉模型提取图片文本的OCR Prompt

 

Des commandes simples suffisent généralement :

按照原文格式提取

 

Seule une partie du contenu est extraite :

仅提取图片中的表格部分

 

Extraction et transcription dans un format de texte fixe :

识别图片后整理为MARKDOWN格式表格,请保持表格原始顺序、格式和语言

 

Extraction structurée :

您的任务是将文件内容转录并格式化为 markdown。您的目标是创建一个结构良好、可读性强的 markdown 文档,该文档准确表示原始内容,同时添加适当的格式和标签。

请按照以下说明完成任务:

1. 仔细阅读整个文件内容。

2. 将内容转录为 markdown 格式,密切关注现有的格式和结构。

3. 如果您在原始内容中发现任何不清楚的格式,请自行判断添加适当的 markdown 格式以提高可读性和结构。

4. 对于表格、标题和目录,请添加以下标签:
- 表格:将整个表格括在 [TABLE] 和 [/TABLE] 标签中。如果表格内容在下一页继续,请合并表格内容。
- 标题(在每页开头重复的完整字符串):括在 markdown 文件内的 [HEADER] 和 [/HEADER] 标签中。
- 目录:用 [TOC] 和 [/TOC] 标签括起来

5. 转录表格时:
- 如果表格跨越多页,请将内容合并为一个连贯的表格。
- 使用适当的 markdown 表格格式,表格结构使用竖线 (|) 和连字符 (-)。

6. 不要在转录中包含分页符。

7. 保持文档的逻辑流程和结构,确保使用 markdown 标题正确格式化章节和小节(# 表示主标题,## 表示副标题等)。

8. 根据需要对其他格式元素(如粗体、斜体、列表和代码块)使用适当的 markdown 语法。

10. 仅返回 markdown 格式的解析内容,包括表格、标题和目录的指定标签。

 

Extraire et traduire :

La commande de traduction que j'utilise le plus souvent est utilisée ici, et elle fonctionne également à merveille pour l'OCR afin d'extraire un texte structuré complexe :Traduction du "modèle d'instruction anglais" en "instructions chinoises", en conservant le formatage d'origine

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...