Sprachmodelle (LMs) sind zu einer zentralen Triebkraft für Innovationen in der KI-Technologie geworden. Von der Vorschulung bis hin zu realen Anwendungen sind Sprachmodelle auf Textdaten angewiesen, um zu funktionieren. Ob sie nun Billionen von Token oder zur Unterstützung datenintensiver KI-Anwendungen ist die Qualität der Textdaten von entscheidender Bedeutung. Qualitativ minderwertige Textdaten können nicht nur zu einem instabilen Trainingsprozess und einer verminderten Modellleistung führen, sondern auch zu suboptimalen Ergebnissen, wenn sie von den Benutzern angefordert werden.
Nicht alle Daten, die für die Sprachmodellierung benötigt werden, liegen jedoch in einem leicht zu analysierenden Format vor, z. B. in Form von Webseiten. In vielen Bereichen werden wertvolle Informationen in elektronischen Dokumentdateien gespeichert, insbesondere im PDF-Format, das die Datenverarbeitung vor besondere Herausforderungen stellt, da es ursprünglich für die Darstellung von Inhalten auf einer Seite mit fester Größe konzipiert wurde, anstatt die logische Struktur des Textes zu erhalten. Im PDF-Format wird der Text beispielsweise als eine Reihe von Zeichencodes gespeichert und Informationen über die Position und Formatierung der einzelnen Zeichen auf der Seite aufgezeichnet. Diese Speicherung ist zwar sehr effizient, macht es aber äußerst schwierig, Texteinheiten wie Überschriften, Absätze, Tabellen und Formeln wiederherzustellen und in der richtigen Lesereihenfolge anzuordnen.
Zur besseren Handhabung elektronischer Dokumente präsentieren wir Ihnen die olmOCRolmOCR ist ein leistungsfähiges Toolkit zur Konvertierung von PDFs und Dokumentenbildern in klaren, strukturierten Klartext. olmOCR ist in folgenden Punkten einzigartig:
überragende Leistung
Um sicherzustellen, dass olmOCR Um Text aus einem breiten Spektrum von Dokumenten genau zu extrahieren, hat das Entwicklungsteam das Modell anhand von 250.000 PDF-Seiten aus verschiedenen Quellen feinabgestimmt. Diese PDF-Dokumente stammten aus einer Vielzahl von Quellen, darunter sowohl native digitale Dokumente als auch gescannte Kopien von gemeinfreien Büchern. Dieser vielfältige Datensatz stellt sicher, dass olmOCR auch bei einer Vielzahl von Dokumenten eine hervorragende Leistung erbringt.
Äußerst kostengünstig
Die Kosten des olmOCR-Toolkits für die Verarbeitung von einer Million Seiten PDF-Dokumenten belaufen sich auf ca. 190 US-Dollar, was etwa 1/32 der Kosten für die Stapelverarbeitung der gleichen Anzahl von Seiten mit der GPT-4o-API entspricht und die wirtschaftliche Barriere für die Dokumentenverarbeitung deutlich senkt.
Ausgabe im Markdown-Format
olmOCR gibt Text im Markdown-Format aus, das leicht zu analysieren und zu verarbeiten ist. Es kann Formeln, Tabellen und sogar handschriftliche Inhalte verarbeiten und stellt sicher, dass selbst die komplexesten, mehrspaltigen Dokumentenlayouts in der richtigen Lesereihenfolge ausgegeben werden.
Voll funktionsfähig, direkt nach dem Auspacken
olmOCR ist eine vollständig optimierte Pipeline, die sowohl mit SGLang als auch mit vLLM Die Inferenzmaschine arbeitet im Tandem. Sie lässt sich von einem einzelnen Grafikprozessor bis zu Hunderten von Grafikprozessoren skalieren und verfügt über integrierte Heuristiken, um häufige Parsing-Fehler und Metadatenfehler zu behandeln.
Vollständig quelloffen
olmOCR ist auf Qwen2-VL-7B-Instruct aufgebaut. Das Entwicklungsteam hat alle Komponenten des Toolkits, einschließlich der Modellgewichte, der fein abgestimmten Datensätze sowie des Trainings- und Inferenzcodes, als Open Source zur Verfügung gestellt.
Um zu sehen, wie olmOCR im Vergleich zu anderen führenden Dokumentenextraktionswerkzeugen abschneidet, und um mehr über den olmOCR-Erstellungsprozess zu erfahren, folgen Sie den Links. Wenn Sie bereit sind, olmOCR auszuprobieren, besuchen Sie das GitHub-Repository und beginnen Sie mit der Verwendung von olmOCR in Ihren Projekten!
Interaktive Tools im Vergleich
Durch den Vergleich von Beispieldokumenten können Sie sehen, wie olmOCR im Vergleich zu anderen führenden Dokumentenextraktionswerkzeugen abschneidet. Mit Hilfe der untenstehenden Registerkarten können Sie die Ausgabe der verschiedenen Werkzeuge betrachten und einen Einblick in die wichtigsten Unterschiede in der Verarbeitungsqualität gewinnen.
Der Weg zum Aufbau von olmOCR
Herkömmliche OCR-Techniken stehen oft vor vielen Herausforderungen, wenn es um PDF-Dokumente mit komplexen Layouts geht. Um qualitativ hochwertige Daten für das Training von olmOCR zu erhalten, hat das Entwicklungsteam innovativ eine neue Technologie namens Dokumentenverankerung Die Technik. Die Methode nutzt den vorhandenen Text und die Metadaten in der PDF-Datei vollständig aus, um die Qualität der Textextraktion erheblich zu verbessern.
Abbildung 1: zeigt, wie die Technik der Dokumentenverankerung auf einer typischen Seite funktioniert. Relevante Bildpositionen und Textblöcke werden extrahiert, miteinander verknüpft und in die Musteraufforderung eingefügt. Der verankerte Text wird in Verbindung mit dem gerasterten Bild der Seite verwendet, wenn eine Klartextversion des Dokuments vom VLM (Visual Language Model) запросить angefordert wird.
Mit Hilfe von Dokumentenverankerungstechniken hat das Entwicklungsteam mit GPT-4o 250.000 Seiten markiert. Der Datensatz stammt aus einer Vielzahl von Quellen, darunter öffentlich zugängliche PDF-Dokumente, die aus dem Internet gecrawlt wurden, und gemeinfreie Bücher, die aus dem Internet-Archiv gescannt wurden. Der Datensatz besteht aus verschiedenen Typen, darunter 60% für wissenschaftliche Arbeiten, 12% für Broschüren, 11% für juristische Dokumente, 6% für Diagramme und Grafiken, 5% für Folien und 4% für andere Dokumenttypen.
Für das Modelltraining hat das olmOCR-Team den Qwen2-VL-7B-Instruct-Checkpoint feinabgestimmt und SGLang verwendet, um eine groß angelegte Stapelverarbeitung zu ermöglichen und die Inferenzpipeline zu optimieren. Um eine umfangreiche Stapelverarbeitung zu ermöglichen und die Inferenzpipeline zu optimieren, wurde SGLang verwendet. olmOCR konnte eine Million PDF-Seiten für nur 190 US-Dollar konvertieren, was 1/32 der Kosten der GPT-4o-API entspricht. Die experimentellen Ergebnisse zeigen, dass olmOCR nicht nur die Kosten im Vergleich zu anderen gängigen OCR-Tools erheblich senkt, sondern auch bei der manuellen Auswertung eine überlegene Leistung zeigt. Die experimentellen Ergebnisse zeigen, dass olmOCR nicht nur die Kosten im Vergleich zu anderen gängigen OCR-Tools deutlich senkt, sondern auch bei der manuellen Auswertung eine überlegene Leistung zeigt.
Abbildung 2: Boxplot des ELO-Rankings von olmOCR im Vergleich zu anderen gängigen Tools.
Um die Leistung von olmOCR umfassend zu bewerten, verglich das Team die Ergebnisse mit anderen beliebten PDF-Extraktionswerkzeugen, darunter Marker, MinerU und GOT-OCR 2.0. 11 Forscher wurden aufgefordert, paarweise Bewertungen vorzunehmen. In 2017 PDF-Dokumenten wurden 452 Sätze aussagekräftiger Vergleiche gesammelt und die Leistung wurde durch die Berechnung von ELO-Scores quantifiziert. Die Ergebnisse zeigen, dass olmOCR einen ELO-Score von über 1800 erreicht und damit alle Wettbewerber deutlich übertrifft. Im direkten Vergleich mit anderen Werkzeugen erzielte olmOCR 61,3% vs. Markierung wurde beim Vergleich von 58.6% mit GOT-OCR und beim Vergleich der MinerU Dieses Verhältnis ist beim Vergleich mit 71,4% sogar noch höher, was die hervorragende Fähigkeit von olmOCR zur Erstellung klarer und gut strukturierter Texte unter Beweis stellt.
Ausführlichere Informationen und weitere Bewertungsergebnisse finden Sie im Technischen Bericht.
Wie man olmOCR benutzt
Die erste Version von olmOCR enthält eine Demo, Modellgewichte, fein abgestimmte Datensätze, einen kurzen technischen Bericht und, was am wichtigsten ist, eine effiziente Inferenzpipeline.
Besuchen Sie das GitHub-Repository, um olmOCR zu installieren und die Dokumentation zu lesen. Führen Sie dann auf einem Rechner mit einer GPU einfach den folgenden Befehl aus:
python -m olmocr.pipeline . /localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf
Das Entwicklungsteam hofft, in naher Zukunft weitere quantitative Benchmarks veröffentlichen zu können, um die Entwicklung besserer PDF-Extraktionsmodelle zu unterstützen und ihre Leistung effektiver zu bewerten.