AI Personal Learning
und praktische Anleitung

OCR-Aufforderung zum Extrahieren von Bildtext mithilfe visueller Modelle

Bei komplexen Textstrukturen oder gemischtem Textinhalt ist es sinnvoll, den Inhalt mit Hilfe der OCR-Funktion des visuellen Modells zu extrahieren.

Multimodale Makromodelle oder spezialisierte visuelle Modelle können den Inhalt des Bildes verstehen und Anweisungen erhalten, um die Erkennungsaufgabe zu erfüllen, und wir werden diese Fähigkeit nutzen, um die Ausgabe an unsere Anforderungen anzupassen.


 

Es wird empfohlen, OCR Prompt mit dem folgenden Tool zu testen: ChatGPT , Kimi , und Qwen2-VL(Derzeit die genaueste)

 

Testbild:

Die Komplexität dieses Bildes liegt in dem verdeckten json-Teil, der von verschiedenen großen Modellen auf unterschiedliche Weise verstanden wird

 

Einfache Befehle sind in der Regel ausreichend:

Extrahiert im Originalformat

 

Es wird nur ein Teil des Inhalts extrahiert:

Nur den Tabellenteil des Bildes extrahieren

 

Extrahiert und in ein festes Textformat umgeschrieben:

Identifizierte Bilder werden in Tabellen im MARKDOWN-Format zusammengefasst. Bitte behalten Sie die ursprüngliche Reihenfolge, das Format und die Sprache der Tabellen bei.

 

Strukturierte Extraktion:

Ihr Ziel ist es, ein gut strukturiertes, lesbares Markdown-Dokument zu erstellen, das den ursprünglichen Inhalt genau wiedergibt und gleichzeitig geeignete Formatierungen und Tags enthält.

Befolgen Sie die nachstehenden Anweisungen, um die Aufgabe zu lösen:

1. Lesen Sie den gesamten Inhalt des Dokuments sorgfältig durch.

2. Übertragen Sie den Inhalt in das Markdown-Format und achten Sie dabei genau auf das vorhandene Format und die Struktur.

3. Wenn Sie unklare Formatierungen im Originalinhalt finden, fügen Sie nach eigenem Ermessen geeignete Markdown-Formatierungen hinzu, um die Lesbarkeit und Struktur zu verbessern.

4. für Tabellen, Überschriften und Inhaltsverzeichnisse fügen Sie die folgenden Tags hinzu:
- Tabellen: Schließen Sie die gesamte Tabelle in die Tags [TABLE] und [/TABLE] ein. Fügen Sie Tabelleninhalte zusammen, wenn sie auf der nächsten Seite fortgesetzt werden.
- Überschriften (vollständige Zeichenfolgen, die am Anfang jeder Seite wiederholt werden): in [HEADER]- und [/HEADER]-Tags innerhalb der Markdown-Datei einschließen.
- Inhaltsverzeichnis: in [TOC]- und [/TOC]-Tags eingeschlossen

5. bei der Transkription von Tabellen:
- Wenn sich die Tabelle über mehrere Seiten erstreckt, fügen Sie den Inhalt in einer einzigen zusammenhängenden Tabelle zusammen.
- Verwenden Sie die richtige Markdown-Tabellenformatierung mit vertikalen Linien (|) und Bindestrichen (-) für die Tabellenstruktur.

6. Fügen Sie in der Transkription keine Seitenumbrüche ein.

7. den logischen Fluss und die Struktur des Dokuments beibehalten und sicherstellen, dass Abschnitte und Unterabschnitte mit Markdown-Überschriften richtig formatiert sind (# für Hauptüberschriften, ## für Unterüberschriften usw.).

8. Verwenden Sie bei Bedarf eine geeignete Markdown-Syntax für andere Formatierungselemente wie Fett- und Kursivdruck, Listen und Codeblöcke.

10. nur geparste Inhalte im Markdown-Format zurückgeben, einschließlich der angegebenen Tags für Tabellen, Überschriften und Inhaltsverzeichnisse.

 

Extrahieren und übersetzen:

Der Übersetzungsbefehl, den ich am häufigsten verwende, kommt hier zum Einsatz, und er eignet sich auch hervorragend für OCR, um komplex strukturierten Text zu extrahieren:Übersetzung der "englischen Anleitungsvorlage" in "chinesische Anweisungen" unter Beibehaltung der ursprünglichen Formatierung

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " OCR-Aufforderung zum Extrahieren von Bildtext mithilfe visueller Modelle

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)