複雑なテキスト構造、またはテキストが混在するコンテンツに直面した場合、ビジュアルモデルOCR機能を使用してコンテンツを抽出するのがよい。
マルチモーダル・マクロモデルや特殊化された視覚モデルは、画像の内容を理解し、認識タスクを実行するための指示を受け取ることができる。
OCRプロンプトは、次のツールでテストすることをお勧めします: ChatGPT 、 キミ そして クウェン2-VL(現在最も正確)
テスト画像:
この画像の複雑さは、不明瞭なjsonの部分にある。
シンプルなコマンドであれば、通常は問題ない:
オリジナルフォーマットで抽出
コンテンツの一部のみが抽出される:
画像の表部分のみを抽出
抽出し、固定フォーマットのテキストに書き起こす:
識別された画像はMARKDOWN形式の表に照合されますが、表の順序、形式、言語はオリジナルを維持してください。
構造化抽出:
あなたの仕事は、文書の内容をマークダウンに書き写し、フォーマットすることです。あなたのゴールは、適切なフォーマットとタグを追加しながら、元の内容を正確に表現した、構造化された読みやすいマークダウン文書を作成することです。 以下の指示に従ってタスクを完了させてください: 1. 文書の内容全体を注意深く読んでください。 2. 既存の形式と構造に細心の注意を払いながら、内容をマークダウン形式に書き写す。 3. 元のコンテンツに不明瞭な書式があれば、自分の判断で適切なマークダウン書式を追加し、読みやすさと構造を改善する。 4.表、見出し、目次については、以下のタグを追加する: - 表:表全体を[TABLE]タグと[/TABLE]タグで囲む。表の内容が次ページに続く場合は統合する。 - 見出し(各ページの最初に繰り返される完全な文字列):マークダウン・ファイル内の[HEADER]タグと[/HEADER]タグで囲む。 - 目次: [TOC]と[/TOC]タグで囲む。 5.表を転記する場合 - 表が複数のページにまたがる場合は、内容を1つのまとまった表に統合する。 - 表の構造には縦線(|)とハイフン(-)を使用し、適切なマークダウン表書式を使用する。 6. 書き起こしには改ページを含めない。 7.文書の論理的な流れと構造を維持し、セクションとサブセクションがマークダウンの見出し(大見出しは#、小見出しは##など)を使用して適切にフォーマットされるようにする。 8. 必要に応じて、太字、斜体、リスト、コードブロックなどのその他のフォーマット要素に適切なマークダウン構文を使用する。 10.表、見出し、目次の指定タグを含め、解析されたコンテンツのみをマークダウン形式で返します。
抽出し、翻訳する:
私が最もよく使う翻訳コマンドはここで使うもので、複雑な構造のテキストを抽出するOCRにも威力を発揮する:オリジナルの書式を維持したまま、「英語の説明書テンプレート」を「中国語の説明書」に翻訳。