Visuelle Sprachmodellierung für effiziente PDF-Textextraktion - olmOCR

AI-NachrichtenGeschrieben vor 6 Monaten AI-Austauschkreis

7.6K 00

Sprachmodelle (LMs) sind zu einer zentralen Triebkraft für Innovationen in der KI-Technologie geworden. Von der Vorschulung bis hin zu realen Anwendungen sind Sprachmodelle auf Textdaten angewiesen, um zu funktionieren. Ob sie nun Billionen von Token oder zur Unterstützung datenintensiver KI-Anwendungen ist die Qualität der Textdaten von entscheidender Bedeutung. Qualitativ minderwertige Textdaten können nicht nur zu einem instabilen Trainingsprozess und einer verminderten Modellleistung führen, sondern auch zu suboptimalen Ergebnissen, wenn sie von den Benutzern angefordert werden.

Nicht alle Daten, die für die Sprachmodellierung benötigt werden, liegen jedoch in einem leicht zu analysierenden Format vor, z. B. in Form von Webseiten. In vielen Bereichen werden wertvolle Informationen in elektronischen Dokumentdateien gespeichert, insbesondere im PDF-Format, das die Datenverarbeitung vor besondere Herausforderungen stellt, da es ursprünglich für die Darstellung von Inhalten auf einer Seite mit fester Größe konzipiert wurde, anstatt die logische Struktur des Textes zu erhalten. Im PDF-Format wird der Text beispielsweise als eine Reihe von Zeichencodes gespeichert und Informationen über die Position und Formatierung jedes Zeichens auf der Seite aufgezeichnet. Diese Speicherung ist zwar sehr effizient, macht es aber äußerst schwierig, Texteinheiten wie Überschriften, Absätze, Tabellen und Formeln wiederherzustellen und in der richtigen Lesereihenfolge anzuordnen.

Zur besseren Handhabung elektronischer Dokumente stellen wir Ihnen die olmOCRolmOCR ist ein hochleistungsfähiges Toolkit zur Konvertierung von PDFs und Dokumentenbildern in klaren, strukturierten Klartext. olmOCR ist in folgenden Punkten einzigartig:

überragende Leistung

Um sicherzustellen, dass olmOCR Um Text aus einem breiten Spektrum von Dokumenten genau zu extrahieren, hat das Entwicklungsteam das Modell anhand von 250.000 PDF-Seiten aus verschiedenen Quellen feinabgestimmt. Diese PDF-Dokumente stammten aus einer Vielzahl von Quellen, darunter sowohl native digitale Dokumente als auch gescannte Kopien von gemeinfreien Büchern. Dieser vielfältige Datensatz stellt sicher, dass olmOCR bei einer Vielzahl von Dokumenten eine hervorragende Leistung erbringt.

Äußerst kostengünstig

Die Kosten des olmOCR-Toolkits für die Verarbeitung von einer Million Seiten PDF-Dokumenten belaufen sich auf ca. 190 US-Dollar, was etwa 1/32 der Kosten für die Stapelverarbeitung der gleichen Anzahl von Seiten mit der GPT-4o-API entspricht und die wirtschaftliche Barriere für die Dokumentenverarbeitung deutlich senkt.

Ausgabe im Markdown-Format

olmOCR gibt Text im Markdown-Format aus, das leicht zu analysieren und zu verarbeiten ist. Es kann Formeln, Tabellen und sogar handschriftliche Inhalte verarbeiten und stellt sicher, dass selbst bei den komplexesten, mehrspaltigen Dokumentenlayouts die Ausgabe in der richtigen Lesereihenfolge erfolgt.

Voll funktionsfähig, direkt nach dem Auspacken

olmOCR ist eine vollständig optimierte Pipeline, die sowohl mit SGLang als auch mit vLLM Die Inferenzmaschine arbeitet im Tandem. Sie lässt sich von einem einzelnen Grafikprozessor bis zu Hunderten von Grafikprozessoren skalieren und verfügt über integrierte Heuristiken, um häufige Parsing-Fehler und Metadatenfehler zu behandeln.

Vollständig quelloffen

olmOCR ist auf Qwen2-VL-7B-Instruct aufgebaut. Das Entwicklungsteam hat alle Komponenten des Toolkits, einschließlich der Modellgewichte, der fein abgestimmten Datensätze sowie des Trainings- und Inferenzcodes, als Open Source zur Verfügung gestellt.

Um zu sehen, wie olmOCR im Vergleich zu anderen führenden Dokumentenextraktionswerkzeugen abschneidet, und um mehr über den olmOCR-Erstellungsprozess zu erfahren, folgen Sie den Links. Wenn Sie bereit sind, olmOCR auszuprobieren, besuchen Sie das GitHub-Repository und beginnen Sie mit der Verwendung von olmOCR in Ihren Projekten!

Interaktive Tools im Vergleich

Durch den Vergleich von Beispieldokumenten können Sie sehen, wie olmOCR im Vergleich zu anderen führenden Dokumentenextraktionswerkzeugen abschneidet. Mit Hilfe der untenstehenden Registerkarten können Sie die Ausgabe der verschiedenen Werkzeuge betrachten und einen Einblick in die wichtigsten Unterschiede in der Verarbeitungsqualität gewinnen.

Der Weg zum Aufbau von olmOCR

Herkömmliche OCR-Techniken stehen oft vor großen Herausforderungen, wenn es um PDF-Dokumente mit komplexem Layout geht. Um qualitativ hochwertige Daten für das Training von olmOCR zu erhalten, hat das Entwicklungsteam ein innovatives Verfahren namens Dokumentenverankerung Die Technik. Die Methode nutzt den vorhandenen Text und die Metadaten in der PDF-Datei vollständig aus, um die Qualität der Textextraktion erheblich zu verbessern.

Abbildung 1: zeigt, wie die Technik der Dokumentenverankerung auf einer typischen Seite funktioniert. Relevante Bildpositionen und Textblöcke werden extrahiert, miteinander verknüpft und in die Musteraufforderung eingefügt. Der verankerte Text wird in Verbindung mit dem gerasterten Bild der Seite verwendet, wenn eine Klartextversion des Dokuments vom VLM (Visual Language Model) запросить angefordert wird.

Mit Hilfe von Dokumentenverankerungstechniken hat das Entwicklungsteam mit GPT-4o 250.000 Seiten markiert. Der Datensatz stammt aus einer Vielzahl von Quellen, darunter öffentlich zugängliche PDF-Dokumente, die aus dem Internet gecrawlt wurden, und gemeinfreie Bücher, die aus dem Internet-Archiv gescannt wurden. Der Datensatz besteht aus verschiedenen Typen, darunter 60% für wissenschaftliche Arbeiten, 12% für Broschüren, 11% für juristische Dokumente, 6% für Diagramme und Grafiken, 5% für Folien und 4% für andere Dokumenttypen.

Für das Modelltraining hat das olmOCR-Team den Qwen2-VL-7B-Instruct-Checkpoint feinabgestimmt und SGLang verwendet, um eine groß angelegte Stapelverarbeitung zu ermöglichen und die Inferenzpipeline zu optimieren. Um eine umfangreiche Stapelverarbeitung zu ermöglichen und die Inferenzpipeline zu optimieren, wurde SGLang verwendet. olmOCR konnte eine Million PDF-Seiten für nur 190 US-Dollar konvertieren, was 1/32 der Kosten der GPT-4o-API entspricht. Die experimentellen Ergebnisse zeigen, dass olmOCR nicht nur die Kosten im Vergleich zu anderen gängigen OCR-Tools erheblich senkt, sondern auch bei der manuellen Bewertung eine überlegene Leistung zeigt. Die experimentellen Ergebnisse zeigen, dass olmOCR nicht nur die Kosten im Vergleich zu anderen gängigen OCR-Tools deutlich senkt, sondern auch bei der manuellen Auswertung eine überlegene Leistung zeigt.

Abbildung 2: Boxplot des ELO-Rankings von olmOCR im Vergleich zu anderen gängigen Tools.

Um die Leistung von olmOCR umfassend zu bewerten, verglich das Team die Ergebnisse mit anderen beliebten PDF-Extraktionswerkzeugen, darunter Marker, MinerU und GOT-OCR 2.0. 11 Forscher wurden aufgefordert, paarweise Bewertungen vorzunehmen. In 2017 PDF-Dokumenten wurden 452 Sätze aussagekräftiger Vergleiche gesammelt und die Leistung wurde durch die Berechnung von ELO-Scores quantifiziert. Die Ergebnisse zeigen, dass olmOCR einen ELO-Score von über 1800 erreicht und damit alle Wettbewerber deutlich übertrifft. Im direkten Vergleich mit anderen Werkzeugen erzielte olmOCR 61,3% vs. Markierung wurde beim Vergleich von 58.6% mit GOT-OCR und beim Vergleich der MinerU Dieses Verhältnis ist beim Vergleich mit 71,4% sogar noch höher, was die hervorragende Fähigkeit von olmOCR zur Erzeugung klarer und gut strukturierter Texte unter Beweis stellt.

Ausführlichere Informationen und weitere Bewertungsergebnisse finden Sie im Technischen Bericht.

Wie man olmOCR benutzt

Die erste Version von olmOCR enthält eine Demo, Modellgewichte, fein abgestimmte Datensätze, einen kurzen technischen Bericht und, was am wichtigsten ist, eine effiziente Inferenzpipeline.

Besuchen Sie das GitHub-Repository, um olmOCR zu installieren und die Dokumentation zu lesen. Führen Sie dann auf einem Rechner mit einer GPU einfach den folgenden Befehl aus:

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

Das Entwicklungsteam hofft, in naher Zukunft weitere quantitative Benchmarks veröffentlichen zu können, um die Entwicklung besserer PDF-Extraktionsmodelle zu unterstützen und ihre Leistung effektiver zu bewerten.

AI-Nachrichten

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Dify veröffentlicht Agent Node: Autonome Entscheidungsmöglichkeiten in den Workflow einbauen

AI-Nachrichten

vor 6 Monaten

017.2K

“声”临其境，一键克隆：最新发布的GPT-SoVITS V2，让你的声音自由飞翔

"Ein-Klick-Klonen: Das neu erschienene GPT-SoVITS V2 lässt Ihre Stimme frei fliegen!

AI-Nachrichten

vor 11 Monaten

09.3K

Baidu Herz bitter... ...Wenxin Yiyin wird ab dem 1. April völlig kostenlos sein, und die Online-Tiefensuchfunktion

AI-Nachrichten

vor 7 Monaten

08.2K

Detaillierter Vergleichstest der automatisierten Workflow-Tools n8n, Coze (Button) & Dify

AI-Nachrichten

vor 6 Monaten

015.9K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

Visuelle Sprachmodellierung für effiziente PDF-Textextraktion - olmOCR

überragende Leistung

Äußerst kostengünstig

Ausgabe im Markdown-Format

Voll funktionsfähig, direkt nach dem Auspacken

Vollständig quelloffen

Interaktive Tools im Vergleich

Der Weg zum Aufbau von olmOCR

Wie man olmOCR benutzt

Verabschieden Sie sich von mechanischen Klängen! Allround-KI-Stimmwerkzeuge erklärt: Text-to-Speech, Stimmenklonen, Soundeffekt-Bibliothek - alles aus einer Hand!

Die Ergebnisse der Code-Generierung auf Projektebene liegen vor! o3/Claude 3.7 ist führend, R1 ist in der Spitzengruppe!

Ähnliche Artikel

Dify veröffentlicht Agent Node: Autonome Entscheidungsmöglichkeiten in den Workflow einbauen

"Ein-Klick-Klonen: Das neu erschienene GPT-SoVITS V2 lässt Ihre Stimme frei fliegen!

Baidu Herz bitter... ...Wenxin Yiyin wird ab dem 1. April völlig kostenlos sein, und die Online-Tiefensuchfunktion

Detaillierter Vergleichstest der automatisierten Workflow-Tools n8n, Coze (Button) & Dify

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

Visuelle Sprachmodellierung für effiziente PDF-Textextraktion - olmOCR

überragende Leistung

Äußerst kostengünstig

Ausgabe im Markdown-Format

Voll funktionsfähig, direkt nach dem Auspacken

Vollständig quelloffen

Interaktive Tools im Vergleich

Der Weg zum Aufbau von olmOCR

Wie man olmOCR benutzt

Verabschieden Sie sich von mechanischen Klängen! Allround-KI-Stimmwerkzeuge erklärt: Text-to-Speech, Stimmenklonen, Soundeffekt-Bibliothek - alles aus einer Hand!

Die Ergebnisse der Code-Generierung auf Projektebene liegen vor! o3/Claude 3.7 ist führend, R1 ist in der Spitzengruppe!

Ähnliche Artikel

Dify veröffentlicht Agent Node: Autonome Entscheidungsmöglichkeiten in den Workflow einbauen

"Ein-Klick-Klonen: Das neu erschienene GPT-SoVITS V2 lässt Ihre Stimme frei fliegen!

Baidu Herz bitter... ...Wenxin Yiyin wird ab dem 1. April völlig kostenlos sein, und die Online-Tiefensuchfunktion

Detaillierter Vergleichstest der automatisierten Workflow-Tools n8n, Coze (Button) & Dify

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel