AIパーソナル・ラーニング
と実践的なガイダンス

視覚モデルを用いた画像テキスト抽出のためのOCRプロンプト

複雑なテキスト構造、またはテキストが混在するコンテンツに直面した場合、ビジュアルモデルOCR機能を使用してコンテンツを抽出するのがよい。

マルチモーダル・マクロモデルや特殊化された視覚モデルは、画像の内容を理解し、認識タスクを実行するための指示を受け取ることができる。


 

OCRプロンプトは、次のツールでテストすることをお勧めします: ChatGPT 、 キミ そして クウェン2-VL(現在最も正確)

 

テスト画像:

この画像の複雑さは、不明瞭なjsonの部分にある。

 

シンプルなコマンドであれば、通常は問題ない:

オリジナルフォーマットで抽出

 

コンテンツの一部のみが抽出される:

画像の表部分のみを抽出

 

抽出し、固定フォーマットのテキストに書き起こす:

識別された画像はMARKDOWN形式の表に照合されますが、表の順序、形式、言語はオリジナルを維持してください。

 

構造化抽出:

あなたの仕事は、文書の内容をマークダウンに書き写し、フォーマットすることです。あなたのゴールは、適切なフォーマットとタグを追加しながら、元の内容を正確に表現した、構造化された読みやすいマークダウン文書を作成することです。

以下の指示に従ってタスクを完了させてください:

1. 文書の内容全体を注意深く読んでください。

2. 既存の形式と構造に細心の注意を払いながら、内容をマークダウン形式に書き写す。

3. 元のコンテンツに不明瞭な書式があれば、自分の判断で適切なマークダウン書式を追加し、読みやすさと構造を改善する。

4.表、見出し、目次については、以下のタグを追加する:
- 表:表全体を[TABLE]タグと[/TABLE]タグで囲む。表の内容が次ページに続く場合は統合する。
- 見出し(各ページの最初に繰り返される完全な文字列):マークダウン・ファイル内の[HEADER]タグと[/HEADER]タグで囲む。
- 目次: [TOC]と[/TOC]タグで囲む。

5.表を転記する場合
- 表が複数のページにまたがる場合は、内容を1つのまとまった表に統合する。
- 表の構造には縦線(|)とハイフン(-)を使用し、適切なマークダウン表書式を使用する。

6. 書き起こしには改ページを含めない。

7.文書の論理的な流れと構造を維持し、セクションとサブセクションがマークダウンの見出し(大見出しは#、小見出しは##など)を使用して適切にフォーマットされるようにする。

8. 必要に応じて、太字、斜体、リスト、コードブロックなどのその他のフォーマット要素に適切なマークダウン構文を使用する。

10.表、見出し、目次の指定タグを含め、解析されたコンテンツのみをマークダウン形式で返します。

 

抽出し、翻訳する:

私が最もよく使う翻訳コマンドはここで使うもので、複雑な構造のテキストを抽出するOCRにも威力を発揮する:オリジナルの書式を維持したまま、「英語の説明書テンプレート」を「中国語の説明書」に翻訳。

AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " 視覚モデルを用いた画像テキスト抽出のためのOCRプロンプト

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語