このディレクティブは ビジョン・パース プロジェクトでは、マークダウン・ドキュメントを抽出するために2つのステップに分かれている。
画像解析プロンプト(img_analysis.prompt)。
この画像を解析し、検出されたテキスト、検出された画像、検出された表、抽出されたテキスト、および抽出されたテキストの信頼度スコアを含む詳細なJSON記述を返します。抽出されたテキストの信頼度スコアは、0 から 1 の間の float 値でなければなりません。 抽出されたテキストの信頼度スコアは0から1の間のfloat値である必要があります。特定の詳細を決定できない場合は、それらのフィールドを空のままにします。
キュー単語翻訳
この画像を解析し、検出されたテキスト、検出された画像、検出された表、抽出されたテキスト、およびその信頼スコアの詳細なJSON記述を返します。 抽出されたテキストの信頼度スコアは、0 から 1 の間の浮動小数点値でなければなりません。詳細が判断できない場合は、これらのフィールドを空白のままにします。
Markdownフォーマット・プロンプト・テンプレート(md_prompt.j2)。
% autoescape true %} {% autoescape true %} {% autoescape true % あなたのタスクは、与えられた画像を分析し、マークダウン形式でテキストコンテンツを抽出することです。 confidence_score_text が定義され、confidence_score_text が数値の場合、{%}。 confidence_score_text > 0.6 %}であれば{%}。 - 抽出されたテキストが画像内の内容と一致するかどうかを検証します:{{ extracted_text|escape|trim }}。 - 画像を分析して、{{ extracted_text|escape|trim }}のマークダウンテキストフォーマットが適切に適用されていることを確認します。 - 画像を分析することで、{{ extracted_text|escape|trim }}のマークダウンテキストフォーマットが適切に適用されていることを確認してください。 マークダウンテキストフォーマットを適用する際、元の抽出テキストの内容は一切変更しないでください。 {マークダウンテキストフォーマットを適用している間は、抽出された元のテキストの内容を一切変更しないでください。} - 最初の信頼スコアが低かったので、画像内のテキストを慎重に再分析してください。 - 提供された画像をマークダウン形式に変換し、画像のすべてのコンテンツが含まれるようにしてください。 {提供された画像をマークダウン形式に変換し、画像のすべてのコンテンツが含まれていることを確認してください。} {% endif %}。 tables_detectedが定義され、tables_detected|string == "Yes" %}の場合、{%}。 - 列には|を、ヘッダー行の区切りには-を使用して、マークダウン形式で表構造を保持します。 - セルの値が表の列内で適切に整列され、表データが歪んでいないことを確認する。 - セル値が表の列内で適切に配置され、表データが歪んでいないことを確認します。 スキャンした文書内の表の元の位置を維持します。 {追加の説明やコメントは含めないでください。} - 太字、斜体、下線、ヘッダー、箇条書き、リンクなどの要素がある場合は、マークダウンのテキスト書式を維持します。 - 厳密には、与えられた画像からテキストコンテンツを省略せず、追加の説明、メモ、コメントも含めないこと。 - コンテンツに不要な書式がないことを確認し、同時に元の書式をできるだけ維持すること。 - 厳密には、``や``マークダウンのようなコードフェンスやバックティックを生成しないでください。 {% endautoescape %}.
キュー単語翻訳
% autoescape true %} {% autoescape true %} {% autoescape true % あなたのタスクは、与えられた画像を分析し、Markdown形式でテキストコンテンツを抽出することです。 confidence_score_textが定義され、confidence_score_textが数値の場合、{%}。 confidence_score_text > 0.6 %}であれば{%}。 - 抽出テキス ト が画像内容 と 一致 し てい る こ と を確認 : {{ extracted_text|escape|trim }}。 - 画像を解析して{{ extracted_text|escape|trim }}のMarkdownテキストフォーマットが正しく適用されていることを確認します。 - 厳密には、Markdownテキスト書式を適用する際に、元の抽出テキストの何も変更しないでください。 {% else %}. - 最初の信頼スコアが低いので、画像内のテキストを慎重に再分析してください。 - 提供された画像をMarkdown形式に変換し、画像内のすべてが含まれていることを確認してください。 {% endif %}. {% endif %}. {もしtables_detectedが定義され、tables_detected|string == "Yes" %}。 - Markdownフォーマットでテーブル構造を保持するために、列には|を、ヘッダー行のセパレータには-を使用します。 - テーブルの列でセルの値が適切に整列され、テーブルのデータが歪まないようにします。 - 表はスキャンした文書の元の位置に維持してください。追加のメモやコメントは含めないでください。 {% endif %}. - 太字、斜体、下線、見出し、箇条書き、リンク、その他の要素がある場合は、そのようなMarkdownテキスト書式を保持します。 - 与えられた画像内のテキストコンテンツは省略せず、追加の説明、メモ、コメントも含めないようにしてください。 - コンテンツに不要な書式がなく、元の書式ができるだけ維持されていることを確認してください。 - や``マークダウンのようなコードブロックやバッククォートを生成しないこと。 {% endautoescape %}.
md_prompt.j2テンプレートで参照されているすべての変数を分析してみよう:
- 信頼度_スコア_テキスト
confidence_score_text が定義されていて confidence_score_text が数値の場合 %} {%
confidence_score_text > 0.6 %}の場合{%}。
- タイプ:数値(数字)
- 目的:テキスト抽出のための信頼度スコアの保存
- 値の範囲:0~1の浮動小数点数
- テキストを再解析する必要があるかどうかを判断するために使用される
- 抽出テキスト
{{ extracted_text|escape|trim }}。
- タイプ: string(文字列)
- 目的:画像から抽出されたオリジナルのテキストコンテンツを保存する
- 2つのフィルターが使われている:
- escape: 特殊文字をエスケープする
- trim: 空白を取り除く
- 検出されたテーブル
tables_detectedが定義され、tables_detected|string == "Yes" の場合、{%}。
- タイプ: string(文字列)
- 目的:フォームが検出されたかどうかを識別する
- 設定可能な値:"Yes "または "No"。
これらの変数はコード内のImageDescriptionモデル(llm.pyで定義)から来ています:
class ImageDescription(BaseModel).
"""画像説明のモデルスキーマ""""
text_detected: Literal["Yes", "No"].
tables_detected: Literal["Yes", "No"].
tables_detected: Literal["Yes", "No"] tables_extracted_text: str
信頼度_スコア_テキスト: float
このモデルはimg_analysis.promptが返すJSON構造に対応し、データの型安全性と一貫性を保証します。これらの変数は、画像解析フェーズ(img_analysis.prompt)で生成され、マークダウン生成テンプレート(md_prompt.j2)に渡されます。