Modélisation du langage visuel pour l'extraction efficace de textes PDF - olmOCR
Les modèles de langage (LM) sont devenus un moteur central de l'innovation dans la technologie de l'intelligence artificielle. Du pré-entraînement aux applications réelles, les modèles de langage s'appuient sur des données textuelles pour fonctionner. Qu'il s'agisse d'effectuer des trillions de jetons ou pour soutenir des applications d'IA à forte intensité de données, la qualité des données textuelles est cruciale. Des données textuelles de mauvaise qualité peuvent non seulement conduire à un processus d'apprentissage instable et à une dégradation des performances du modèle, mais aussi produire des résultats moins qu'optimaux à la demande des utilisateurs.
Cependant, toutes les données nécessaires à la modélisation linguistique n'existent pas dans un format facilement analysable, comme les pages web. En fait, dans de nombreux domaines, des informations précieuses sont stockées dans des fichiers de documents électroniques, en particulier dans le format PDF, qui pose des défis uniques en matière de traitement des données parce qu'il a été conçu à l'origine pour présenter le contenu sur une page de taille fixe plutôt que pour préserver la structure logique du texte. Dans le format PDF, par exemple, le texte est stocké sous la forme d'une série de codes de caractères et des informations sur l'emplacement et le formatage de chaque caractère sur la page sont enregistrées. Bien que ce stockage soit très efficace, il est extrêmement difficile de récupérer les unités de texte telles que les titres, les paragraphes, les tableaux et les formules et de les organiser dans l'ordre de lecture correct.

Pour une meilleure gestion des documents électroniques, nous sommes fiers de vous présenter l'application olmOCRolmOCR est une boîte à outils performante conçue pour convertir des PDF et des images de documents en texte clair et structuré. olmOCR est unique dans les domaines suivants :
performance supérieure
Afin de garantir olmOCR Pour extraire avec précision le texte d'un large éventail de documents, l'équipe de développement a affiné le modèle en utilisant 250 000 pages PDF provenant de diverses sources. Ces documents PDF proviennent d'un large éventail de sources, y compris des documents numériques natifs et des copies scannées de livres du domaine public. Cet ensemble de données diversifiées garantit qu'olmOCR conserve d'excellentes performances sur un large éventail de documents.
Extrêmement rentable
Le coût de la boîte à outils olmOCR pour traiter un million de pages de documents PDF est d'environ 190 dollars, soit environ 1/32 du coût du traitement par lots du même nombre de pages à l'aide de l'API GPT-4o, ce qui réduit considérablement la barrière économique au traitement des documents.
Sortie au format Markdown
olmOCR produit du texte au format Markdown, qui est facile à analyser et à traiter. Il peut gérer des formules, des tableaux et même du contenu manuscrit, et garantit que même avec les mises en page de documents les plus complexes et à plusieurs colonnes, la sortie se fait dans l'ordre de lecture correct.
Entièrement fonctionnel, dès sa sortie de la boîte
olmOCR est un pipeline entièrement optimisé qui fonctionne à la fois avec SGLang et vLLM Le moteur d'inférence fonctionne en tandem. Il s'étend d'un seul GPU à des centaines de GPU et dispose d'une heuristique intégrée pour gérer les échecs d'analyse et les erreurs de métadonnées les plus courants.
Entièrement open source
olmOCR est construit sur Qwen2-VL-7B-Instruct. L'équipe de développement a mis en libre accès tous les composants de la boîte à outils, y compris les poids des modèles, les ensembles de données affinés et le code d'apprentissage et d'inférence.
Pour voir comment olmOCR se compare à d'autres outils d'extraction de documents, et pour en savoir plus sur le processus de construction d'olmOCR, suivez les liens. Si vous êtes prêt à essayer olmOCR, visitez le dépôt GitHub et commencez à utiliser olmOCR dans vos projets !
Comparaison des outils interactifs
En comparant des exemples de documents, vous pouvez visualiser les performances d'olmOCR par rapport à d'autres outils d'extraction de documents. En utilisant les onglets ci-dessous, vous pouvez visualiser les résultats des différents outils et vous faire une idée des principales différences de qualité de traitement.



Le chemin vers la construction d'olmOCR
Les techniques traditionnelles d'OCR sont souvent confrontées à de nombreux défis lorsqu'elles traitent des documents PDF avec des mises en page complexes. Afin d'obtenir des données de haute qualité pour entraîner olmOCR, l'équipe de développement a mis au point une méthode innovante appelée ancrage des documents Il s'agit d'une technique d'extraction de texte à partir de fichiers PDF. La méthode utilise pleinement le texte et les métadonnées existants dans le fichier PDF pour améliorer de manière significative la qualité de l'extraction de texte.

La figure 1 montre comment la technique d'ancrage de document fonctionne sur une page type. Les images et les blocs de texte pertinents sont extraits, reliés entre eux et insérés dans l'invite du modèle. Le texte ancré est utilisé conjointement avec l'image matricielle de la page lors de la demande d'une version en texte brut du document au VLM (Visual Language Model) запросить.
Grâce à des techniques d'ancrage de documents, l'équipe de développement a utilisé GPT-4o pour marquer 250 000 pages. L'ensemble de données provient d'un large éventail de sources, y compris des documents PDF accessibles au public et extraits du web, ainsi que des livres du domaine public scannés à partir de l'Internet Archive. Les données sont de différents types : 60% pour les documents universitaires, 12% pour les brochures, 11% pour les documents juridiques, 6% pour les tableaux et graphiques, 5% pour les diapositives et 4% pour d'autres types de documents.
Pour l'entraînement du modèle, l'équipe olmOCR a affiné le point de contrôle Qwen2-VL-7B-Instruct et utilisé SGLang afin de réaliser un traitement par lots à grande échelle et d'optimiser le pipeline d'inférence. olmOCR a pu convertir un million de pages PDF pour seulement 190 dollars, soit 1/32 du coût de l'API GPT-4o. Les résultats expérimentaux montrent qu'olmOCR réduit non seulement considérablement les coûts par rapport à d'autres outils d'OCR populaires, mais qu'il affiche également des performances supérieures lors de l'évaluation manuelle. Les résultats expérimentaux montrent qu'olmOCR permet non seulement de réduire considérablement les coûts par rapport à d'autres outils d'OCR courants, mais aussi d'obtenir des résultats supérieurs lors de l'évaluation manuelle.

Figure 2 : Diagramme en boîte du classement ELO d'olmOCR par rapport à d'autres outils populaires.
Pour évaluer pleinement les performances d'olmOCR, l'équipe a comparé ses résultats à ceux d'autres outils d'extraction PDF populaires, notamment Marker, MinerU et GOT-OCR 2.0. 11 chercheurs ont été invités à effectuer des évaluations par paires. Sur 2017 documents PDF, 452 ensembles de comparaisons significatives ont été collectés et les performances ont été quantifiées en calculant les scores ELO. Les résultats montrent qu'olmOCR a un score ELO de plus de 1800, surpassant de manière significative tous les concurrents. Dans une comparaison directe avec d'autres outils, olmOCR a obtenu un score de 61,3% vs. Marqueur a été préférée dans la comparaison entre 58.6% et GOT-OCR et dans la comparaison entre le MinerU Ce ratio est encore plus élevé dans la comparaison de 71,4%, ce qui démontre pleinement l'excellente capacité d'olmOCR à générer des textes clairs et bien structurés.
Vous trouverez des informations plus détaillées et d'autres résultats d'évaluation dans le rapport technique.
Comment utiliser olmOCR
La première version d'olmOCR comprend une démo, les poids des modèles, des ensembles de données affinés, un bref rapport technique et, surtout, un pipeline d'inférence efficace.
Visitez le dépôt GitHub pour installer olmOCR et consultez la documentation. Ensuite, sur une machine équipée d'un GPU, exécutez simplement la commande suivante :
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf
L'équipe de développement espère publier d'autres critères quantitatifs dans un avenir proche pour aider à développer de meilleurs modèles d'extraction de PDF et à évaluer leurs performances de manière plus efficace.
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...