Diese Richtlinie ist abgeleitet von der Vision Parse Projekt, das in zwei Schritte unterteilt ist, um Markdown-Dokumente zu extrahieren.
Aufforderung zur Bildanalyse (img_analysis.prompt).
Analysieren Sie dieses Bild und geben Sie eine detaillierte JSON-Beschreibung zurück, die jeden erkannten Text, die erkannten Bilder, die erkannten Tabellen, den extrahierten Text und den Konfidenzwert für den extrahierten Text enthält. Der Konfidenzwert für den extrahierten Text sollte ein Float-Wert zwischen 0 und 1 sein. Confidence score für den extrahierten Text sollte ein Float-Wert zwischen 0 und 1 sein. Wenn Sie bestimmte Details nicht bestimmen können, lassen Sie diese Felder leer.
Übersetzung des Stichworts
Analysiert dieses Bild und gibt eine ausführliche JSON-Beschreibung des erkannten Textes, des erkannten Bildes, der erkannten Tabelle, des extrahierten Textes und seiner Konfidenzbewertung zurück. Der Konfidenzwert für den extrahierten Text sollte ein Fließkommawert zwischen 0 und 1 sein. Lassen Sie diese Felder leer, wenn einige Details nicht ermittelt werden können.
Vorlage für die Markdown-Formatierungsaufforderung (md_prompt.j2).
{% autoescape true %} Ihre Aufgabe ist es, das gegebene Bild zu analysieren und den Textinhalt im Markdown-Format zu extrahieren. {% if confidence_score_text is defined and confidence_score_text is number %} {% wenn confidence_score_text > 0.6 %} - Überprüfen Sie, ob der extrahierte Text mit dem Inhalt des Bildes übereinstimmt: {{ extracted_text|escape|trim }}. - Stellen Sie sicher, dass die Markdown-Textformatierung für {{ extracted_text|escape|trim }} durch Analyse des Bildes richtig angewendet wird. - Stellen Sie sicher, dass die Markdown-Textformatierung für {{ extracted_text|escape|trim }} richtig angewendet wird, indem Sie das Bild analysieren. Ändern Sie bei der Anwendung der Markdown-Textformatierung auf keinen Fall den Inhalt des extrahierten Originaltextes. {Bitte verändern Sie den Inhalt des extrahierten Originaltextes nicht, während Sie die Formatierung des Textes anwenden.} - Bitte analysieren Sie den Text im Bild noch einmal sorgfältig, da der ursprüngliche Konfidenzwert niedrig war. - Konvertieren Sie das bereitgestellte Bild in das Markdown-Format und stellen Sie sicher, dass der gesamte Inhalt des Bildes enthalten ist. {Konvertieren Sie das bereitgestellte Bild in das Markdown-Format und stellen Sie sicher, dass der gesamte Inhalt des Bildes enthalten ist.} {% endif %} {% wenn tables_detected definiert ist und tables_detected|string == "Ja" %} - Behalten Sie die Tabellenstruktur im Markdown-Format bei, indem Sie | für Spalten und - für das Trennzeichen der Kopfzeile verwenden. - Stellen Sie sicher, dass die Zellwerte innerhalb der Tabellenspalten richtig ausgerichtet sind und die Tabellendaten nicht verzerrt werden. - Stellen Sie sicher, dass die Zellwerte innerhalb der Tabellenspalten richtig ausgerichtet sind und die Tabellendaten nicht verzerrt werden. Behalten Sie die ursprüngliche Positionierung der Tabelle im gescannten Dokument bei. {Fügen Sie keine zusätzlichen Erklärungen oder Kommentare ein.} - Behalten Sie die Formatierung des Markdown-Textes bei, falls vorhanden, z. B. fett, kursiv, unterstrichen, Überschriften, Aufzählungspunkte, Links oder andere Elemente. - Lassen Sie keinen Text aus dem Bild weg und fügen Sie keine zusätzlichen Erklärungen, Anmerkungen oder Kommentare ein. - Achten Sie darauf, dass der Inhalt keine unnötigen Formatierungen aufweist und gleichzeitig die ursprüngliche Formatierung so weit wie möglich erhalten bleibt. - Erzeugen Sie grundsätzlich keine Code-Zäune oder Backticks wie ```` oder ```Markdown. {% endautoescape %}
Übersetzung des Stichworts
{% autoescape true %} Ihre Aufgabe ist es, das gegebene Bild zu analysieren und den Textinhalt im Markdown-Format zu extrahieren. {% if confidence_score_text is defined and confidence_score_text is number %} {% wenn confidence_score_text > 0.6 %} - Überprüfen Sie, ob der extrahierte Text mit dem Bildinhalt übereinstimmt: {{ extracted_text|escape|trim }}. - Stellen Sie sicher, dass die Markdown-Textformatierung von {{ extracted_text|escape|trim }} durch Analyse des Bildes korrekt angewendet wird. - Ändern Sie bei der Anwendung der Markdown-Textformatierung nichts am extrahierten Originaltext. {% sonst %} - Bitte analysieren Sie den Text im Bild noch einmal sorgfältig, da der anfängliche Konfidenzwert niedrig ist. - Konvertieren Sie das gelieferte Bild in das Markdown-Format und stellen Sie sicher, dass alles im Bild enthalten ist. {% endif %} {% endif %} {% wenn tables_detected definiert ist und tables_detected|string == "Ja" %} - Verwenden Sie | für Spalten und - für Kopfzeilentrennzeichen, um die Tabellenstruktur im Markdown-Format zu erhalten. - Stellen Sie sicher, dass die Zellwerte in den Tabellenspalten richtig ausgerichtet sind und dass die Tabellendaten nicht verzerrt werden. - Behalten Sie die Tabelle in ihrer ursprünglichen Position im gescannten Dokument bei. Fügen Sie keine zusätzlichen Notizen oder Kommentare ein. {% endif %} - Behalten Sie Markdown-Textformatierungen wie Fett- und Kursivdruck, Unterstreichungen, Überschriften, Aufzählungszeichen, Links oder andere Elemente bei, sofern vorhanden. - Lassen Sie auf keinen Fall Textinhalte in dem gegebenen Bild aus und fügen Sie keine zusätzlichen Beschreibungen, Anmerkungen oder Kommentare ein. - Achten Sie darauf, dass der Inhalt frei von unnötigen Formatierungen ist, wobei die ursprüngliche Formatierung so weit wie möglich erhalten bleiben sollte. - Erzeugen Sie auf keinen Fall Codeblöcke oder Anführungszeichen wie ```` oder ```Markdown. {% endautoescape %}
Ich möchte alle Variablen analysieren, auf die in der Vorlage md_prompt.j2 verwiesen wird:
- konfidenz_score_text
{% wenn confidence_score_text definiert ist und confidence_score_text eine Zahl ist %}
{% wenn confidence_score_text > 0.6 %}
- Typ: numerisch (Zahl)
- Zweck: Speicherung von Vertrauenswerten für die Textextraktion
- Wertebereich: Fließkommazahl zwischen 0 und 1
- Wird verwendet, um festzustellen, ob der Text erneut analysiert werden muss.
- extrahierter_text
{{ extracted_text|escape|trim }}
- Typ: string(Zeichenkette)
- Zweck: Speichert den aus dem Bild extrahierten ursprünglichen Textinhalt
- Es werden zwei Filter verwendet:
- escape: Sonderzeichen werden umgangen
- trim: Whitespace entfernen
- tables_detected
{% wenn tables_detected definiert ist und tables_detected|string == "Ja" %}
- Typ: string(Zeichenkette)
- Zweck: Identifiziert, ob ein Formular erkannt wird
- Mögliche Werte: "Ja" oder "Nein".
Diese Variablen stammen aus dem ImageDescription-Modell im Code (definiert in llm.py):
class ImageDescription(BaseModel).
"""Model Schema für Bildbeschreibung."""""
text_detected: Literal["Ja", "Nein"]
tables_detected: Literal["Ja", "Nein"]
tables_detected: Literal["Ja", "Nein"] tables_extracted_text: str
vertrauenswürdiger_Wert_text: float
Dieses Modell entspricht der JSON-Struktur, die von img_analysis.prompt zurückgegeben wird, und gewährleistet Typsicherheit und Konsistenz der Daten. Diese Variablen werden in der Phase der Bildanalyse (img_analysis.prompt) generiert und dann zur Verwendung an die Vorlage für die Markdown-Generierung (md_prompt.j2) übergeben.