Bei komplexen Textstrukturen oder gemischtem Textinhalt ist es sinnvoll, den Inhalt mit Hilfe der OCR-Funktion des visuellen Modells zu extrahieren.
Multimodale Makromodelle oder spezialisierte visuelle Modelle können den Inhalt des Bildes verstehen und Anweisungen erhalten, um die Erkennungsaufgabe zu erfüllen, und wir werden diese Fähigkeit nutzen, um die Ausgabe an unsere Anforderungen anzupassen.
Es wird empfohlen, OCR Prompt mit dem folgenden Tool zu testen: ChatGPT , Kimi , und Qwen2-VL(Derzeit die genaueste)
Testbild:
Die Komplexität dieses Bildes liegt in dem verdeckten json-Teil, der von verschiedenen großen Modellen auf unterschiedliche Weise verstanden wird
Einfache Befehle sind in der Regel ausreichend:
Extrahiert im Originalformat
Es wird nur ein Teil des Inhalts extrahiert:
Nur den Tabellenteil des Bildes extrahieren
Extrahiert und in ein festes Textformat umgeschrieben:
Identifizierte Bilder werden in Tabellen im MARKDOWN-Format zusammengefasst. Bitte behalten Sie die ursprüngliche Reihenfolge, das Format und die Sprache der Tabellen bei.
Strukturierte Extraktion:
Ihr Ziel ist es, ein gut strukturiertes, lesbares Markdown-Dokument zu erstellen, das den ursprünglichen Inhalt genau wiedergibt und gleichzeitig geeignete Formatierungen und Tags enthält. Befolgen Sie die nachstehenden Anweisungen, um die Aufgabe zu lösen: 1. Lesen Sie den gesamten Inhalt des Dokuments sorgfältig durch. 2. Übertragen Sie den Inhalt in das Markdown-Format und achten Sie dabei genau auf das vorhandene Format und die Struktur. 3. Wenn Sie unklare Formatierungen im Originalinhalt finden, fügen Sie nach eigenem Ermessen geeignete Markdown-Formatierungen hinzu, um die Lesbarkeit und Struktur zu verbessern. 4. für Tabellen, Überschriften und Inhaltsverzeichnisse fügen Sie die folgenden Tags hinzu: - Tabellen: Schließen Sie die gesamte Tabelle in die Tags [TABLE] und [/TABLE] ein. Fügen Sie Tabelleninhalte zusammen, wenn sie auf der nächsten Seite fortgesetzt werden. - Überschriften (vollständige Zeichenfolgen, die am Anfang jeder Seite wiederholt werden): in [HEADER]- und [/HEADER]-Tags innerhalb der Markdown-Datei einschließen. - Inhaltsverzeichnis: in [TOC]- und [/TOC]-Tags eingeschlossen 5. bei der Transkription von Tabellen: - Wenn sich die Tabelle über mehrere Seiten erstreckt, fügen Sie den Inhalt in einer einzigen zusammenhängenden Tabelle zusammen. - Verwenden Sie die richtige Markdown-Tabellenformatierung mit vertikalen Linien (|) und Bindestrichen (-) für die Tabellenstruktur. 6. Fügen Sie in der Transkription keine Seitenumbrüche ein. 7. den logischen Fluss und die Struktur des Dokuments beibehalten und sicherstellen, dass Abschnitte und Unterabschnitte mit Markdown-Überschriften richtig formatiert sind (# für Hauptüberschriften, ## für Unterüberschriften usw.). 8. Verwenden Sie bei Bedarf eine geeignete Markdown-Syntax für andere Formatierungselemente wie Fett- und Kursivdruck, Listen und Codeblöcke. 10. nur geparste Inhalte im Markdown-Format zurückgeben, einschließlich der angegebenen Tags für Tabellen, Überschriften und Inhaltsverzeichnisse.
Extrahieren und übersetzen:
Der Übersetzungsbefehl, den ich am häufigsten verwende, kommt hier zum Einsatz, und er eignet sich auch hervorragend für OCR, um komplex strukturierten Text zu extrahieren:Übersetzung der "englischen Anleitungsvorlage" in "chinesische Anweisungen" unter Beibehaltung der ursprünglichen Formatierung