Inventaire approfondi des projets Open Source de l'OCR : les 10 premiers à ne pas manquer en 2025

Nouvelles de l'IAPosté il y a 6 mois Cercle de partage de l'IA

18.4K 00

La technologie OCR est capable de convertir les informations textuelles d'une image en données textuelles éditables et traitables. En termes simples, elle reconnaît et extrait le texte des images.

Ensuite, nous passerons en revue les 10 projets open source d'OCR les plus étoilés sur GitHub afin de vous donner un guide complet pour choisir un outil d'OCR.

01 GOT-OCR 2.0 : modèle d'OCR multimodal de bout en bout

GOT-OCR 2.0 est un modèle d'OCR multimodal de bout en bout à source ouverte dont la taille du modèle est de seulement 1,43 Go. Il reconnaît et extrait non seulement du texte, mais traite également les éléments suivantsFormules mathématiques, formules moléculaires, diagrammes, partitions, formes géométriqueset bien d'autres, ce qui élargit considérablement le champ d'application de la technologie OCR.

Caractéristiques du modèle :

Soutien multimodal : Outre le texte normal, il peut traiter un large éventail de contenus complexes.
Modèles légers : La taille du modèle n'est que de 1,43 Go, ce qui facilite son déploiement.
Identification de bout en bout : Pas besoin de procédures complexes de pré- et post-traitement.

Avantage : GOT-OCR 2.0 présente des avantages évidents dans la gestion de scénarios complexes et de contenus diversifiés, et convient aux scénarios d'application qui doivent traiter plusieurs types de documents.

Il a actuellement 7.2K étoiles sur GitHub !

开源地址：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

02 InternVL : un puissant modèle multimodal open source

InternVL est un macromodèle multimodal open-source développé par l'équipe d'OpenGVLab qui vise à fournir une approximation proche des modèles GPT-4V et Gémeaux Une alternative aux performances des modèles commerciaux tels que Pro.

Bien qu'InternVL appartienne au grand modèle visuel, la scène d'application est plus étendue, comme la compréhension d'image, pas le modèle vertical du champ OCR, mais il peut être rétrocompatible avec l'extraction OCR du texte de la scène. Il existe de nombreux excellents modèles visuels open source, cet article ne les énumère pas tous, il se contente de citer InternVL à titre d'exemple.

Caractéristiques du modèle :

Capacités multimodales : Il prend en charge un large éventail de tâches telles que la compréhension d'images et les interrogations visuelles.
Haute performance : Approcher les performances des modèles commerciaux.
Open Source Open : Pratique pour les développeurs pour le développement secondaire et la personnalisation.

Avantage : InternVL, en tant que macromodèle visuel, présente des avantages pour le traitement d'images complexes et la compréhension du contenu des images, et répond également aux besoins fondamentaux de l'OCR.

Il a reçu jusqu'à présent 7,2 km d'étoiles.

开源地址：https://github.com/OpenGVLab/InternVL

03 olmOCR : L'expert en structuration de documents PDF

olmOCR est développé par AllenAI et se concentre sur Linéarisation des documents PDFUne boîte à outils qui convertit des PDF à la mise en page complexe en texte structuré adapté à la formation à la modélisation en langage large (LLM).

Son objectif principal est de générer des données textuelles cohérentes en traitant efficacement les problèmes liés aux PDF, tels que le mélange de texte et de graphiques, la mise en page en plusieurs colonnes, etc. et d'améliorer la capacité de LLM à comprendre les documents dans des scénarios réels.

Détails techniques :

Analyse de la mise en page : Reconnaît avec précision les mises en page multi-colonnes de texte, d'images, de tableaux, etc. dans les PDF.
Linéarisation du texte : Convertir des présentations complexes en séquences de texte linéaires adaptées au traitement LLM.
Réorganisation du contenu : Résoudre des problèmes tels que le croisement de pages, de colonnes, etc. pour assurer la cohérence du texte.

Scénarios d'application :

Analyse d'articles académiques : Extrayez rapidement les informations clés de vos documents.
Traitement des documents juridiques : Extraction structurée de documents tels que des contrats, des jugements, etc.
Analyse des états financiers : Extraction automatisée des données financières et des indicateurs clés.

La configuration requise est un GPU NVIDIA récent (testé sur RTX 4090, L40S, A100, H100) avec au moins 20 Go de RAM GPU et 30 Go d'espace disque disponible.

Il a reçu jusqu'à présent 9.8K étoiles !

开源地址：https://github.com/allenai/olmocr
在线演示：https://olmocr.allenai.org/

04 Zerox : outil de conversion de documents structurés piloté par l'IA

Zerox Il s'agit d'un outil d'extraction de documents piloté par l'IA et développé par l'équipe Omni-AI qui convertit les documents PDF, images, Docx, etc. en fichiers Markdown structurés.

Avantage :

Aucune formation n'est requise : Contrairement aux outils d'OCR traditionnels, Zerox peut traiter des mises en page complexes sans avoir à former le modèle à l'avance.
Génération directe de contenu structuré : Mettre en œuvre l'OCR sur la base d'un modèle visuel (par exemple GPT-4o-mini) et générer directement du contenu structuré.
Conserver la structure logique : Reconnaître la disposition en colonnes des articles universitaires, des blocs de code dans les documents techniques, des formulaires de contrat, des formules de test, etc. et générer un code Markdown soigné.
Comparaison avec l'OCR traditionnel Zerox omet les étapes traditionnelles d'analyse de la mise en page, de réduction de la structure des tableaux, etc. et produit directement des résultats en Markdown.

Actuellement 10.3K Star !

开源地址：https://github.com/getomni-ai/zerox
体验地址：https://getomni.ai/ocr-demo

05 Surya : Reconnaissance de textes multilingues et de structures de documents complexes

Surya Se concentre sur la reconnaissance de textes multilingues et de structures de documents complexes, avec une expertise particulière dans la reconnaissance de tableaux.

Mots clés : détection de texte au niveau des lignes, analyse de la mise en page (détection de tableaux, d'images, de légendes, etc.), détection de l'ordre de lecture, reconnaissance de tableaux (détection de lignes/colonnes), LaTeX OCR

Caractéristiques principales :

Support multilingue : Prise en charge de plus de 90 langues, y compris des écritures complexes telles que le chinois, le japonais et l'arabe, ainsi que des langues courantes telles que l'anglais et l'espagnol, pour le traitement de documents dans des scénarios mondialisés.
Optimisation de la reconnaissance des formes : Peut identifier avec précision les lignes, les colonnes et la structure des cellules du tableau, y compris la rotation ou la disposition complexe du tableau. Les performances sont meilleures que celles des principaux modèles open source actuels (tels que Table Transformer).
Analyse de documents complexes : Il peut détecter le titre, les images, les paragraphes et d'autres éléments dans le document, et juger intelligemment l'ordre de lecture pour éviter la confusion du contenu de sortie.

Exemple de scénario d'application :

Numérisation de documents multilingues : Les contrats, rapports, etc. multilingues sont traités par des entreprises multinationales.
Numérisation des archives historiques : Traiter des documents historiques contenant des tableaux et des mises en page complexes.
Extraction des données scientifiques : Extraction de données tabulaires à partir d'articles universitaires.

Surya prend en charge les opérations CPU/GPU et améliore considérablement la vitesse de reconnaissance grâce au traitement par lots et à l'optimisation du prétraitement des images (par exemple, débruitage, mise à l'échelle des gris) pour les besoins de numérisation des documents au niveau de l'entreprise.

Il a actuellement 16.8K étoiles sur GitHub !

开源地址：https://github.com/VikParuchuri/surya

06 OCRmyPDF : Ajouter une couche de texte consultable aux PDF numérisés

Cet outil open source , conçu pour les documents PDF scannés ( c'est à dire que le PDF est entièrement constitué d'images , les images dans le texte ne peuvent pas être copiées ) pour ajouter une couche de texte consultable , copiable .

Scénarios d'application :

Numérisation des archives : Convertissez des documents papier numérisés en PDF interrogeables.
Accessibilité : Documents PDF accessibles aux malvoyants.
Recherche d'information : Recherche facile d'informations dans un grand nombre de documents numérisés.

Avantage :

Identification précise : Prise en charge de plus de 100 langues grâce au moteur OCR de Tesseract.
Optimisation des images : Corrige automatiquement les pages obliques et les pages erronées tournées afin d'améliorer les taux de reconnaissance.
Traitement par lots : Traitez efficacement des milliers de pages de documents grâce à l'accélération de l'unité centrale multicœur.

OCRmyPDF a un avantage certain dans le traitement des PDF numérisés, est facile à installer et à utiliser, et est compatible avec Linux, Windows, macOS, et Docker, fournissant une solution plus pratique que d'autres outils qui nécessitent un traitement manuel des documents numérisés.

Actuellement, il a reçu 20.7K étoiles sur GitHub !

OCRmyPDF peut incorporer une couche de texte OCR sous l'image, permettant une copie et une recherche de haute précision.

开源地址：https://github.com/ocrmypdf/OCRmyPDF
接入文档：https://ocrmypdf.readthedocs.io/en/latest/

07 Marker : conversion de documents PDF, d'images et d'autres documents multiformats

Marqueur Il s'agit d'un outil de conversion de documents efficace développé par Vik Paruchuri qui peut rapidement convertir des PDF, des images, des documents Office et des formats EPUB en Markdown, JSON ou HTML.

Avantage : Marqueur Il excelle dans l'analyse de contenus complexes (tableaux, formules mathématiques, blocs de code, etc.) avec une grande précision et une excellente vitesse de traitement, prend en charge l'accélération GPU et surpasse les services cloud comparables (Llamaparse, Mathpix, etc.).

Applications :

Conversion de documents académiques : Convertissez des documents PDF en Markdown pour faciliter l'édition et la citation.
Génération de documentation technique : Convertissez des documents contenant du code et des diagrammes dans un format HTML facile à publier.
Extraction des données : Extraire les données des tableaux et des formulaires au format JSON pour faciliter le traitement ultérieur.

Marker peut faire appel à de grands modèles linguistiques (par exemple Gemini, Ollama) pour optimiser les résultats tels que la fusion de tableaux entre pages, le formatage de formules, l'extraction de données de formulaires.

Il a actuellement 22.8K étoiles sur GitHub.

开源地址：https://github.com/vikParuchuri/marker

08 EasyOCR : une bibliothèque d'outils de reconnaissance de textes multilingues

EasyOCR Il s'agit d'une bibliothèque d'outils d'OCR open source développée par JaidedAI, qui saisit une image et renvoie le texte extrait, les coordonnées de l'emplacement correspondant et le niveau de confiance.

Caractéristiques :

Support multilingue : Prise en charge de plus de 80 langues et de plusieurs systèmes d'écriture (chinois, latin, arabe, etc.).
Prêt à l'emploi : Fournit des modèles pré-entraînés pour un déploiement rapide sans formation supplémentaire.
Entrée flexible : Prend en charge de multiples formes d'entrée telles que les images, les flux d'octets, les URL, etc.
Simplicité API : Éditer le contenu du texte, la position et le degré de confiance via une API concise.
Compatible CPU/GPU : L'environnement d'exploitation peut être sélectionné de manière flexible en fonction des conditions matérielles.

Modèle de formation : EasyOCR est basé sur le cadre d'apprentissage profond PyTorch et utilise une structure de modèle CRNN (Convolutional Recurrent Neural Network) combinée à une fonction de perte CTC (Connectionist Temporal Classification) pour l'apprentissage.

Scénarios d'application :

Reconnaissance de documents multilingues : Idéal pour travailler avec des documents contenant plusieurs langues.
Reconnaissance de texte en scène naturelle : Il peut être utilisé pour reconnaître du texte dans des scènes naturelles telles que des panneaux routiers et des plaques d'immatriculation.
OCR mobile : Le modèle est léger et convient à un déploiement sur mobile.

EasyOCR combine la convivialité pour les développeurs et les exigences des applications industrielles pour les scénarios d'OCR tels que les documents multilingues et les textes de scènes naturelles.

Il a actuellement 26K étoiles sur GitHub.

开源地址：https://github.com/JaidedAI/EasyOCR
Demo 地址：https://www.jaided.ai/documentai/demo

09 Umi-OCR : logiciel OCR hors ligne à installer et à utiliser

Il s'agit d'un logiciel de reconnaissance de texte OCR gratuit, open source et hors ligne, compatible avec les systèmes Windows 7+ x64 et Linux x64, ne nécessitant pas de réseau, à télécharger et à exécuter localement.

Mots clés : logiciel local dézipper et exécuter hors ligne ; capture d'écran OCR ; batch OCR ;

Avantage :

Exécution hors ligne : Aucune connexion internet n'est nécessaire pour protéger la vie privée de l'utilisateur.
Simple d'utilisation : Fournit une interface graphique pour une utilisation facile.
Riche en fonctionnalités : Prise en charge de l'OCR des captures d'écran, de l'OCR par lots et de nombreuses autres fonctions.
Comparez cela à d'autres outils hors ligne : L'installation est facile et il n'est pas nécessaire de configurer l'environnement d'exploitation.

Jusqu'à présent, il a obtenu 30,8 km d'étoiles.

开源地址：https://github.com/hiroi-sora/Umi-OCR

10 Tesseract : Dieux anciens du champ OCR

Tesseract est un moteur OCR open source puissant et largement utilisé qui convertit le texte des images en texte éditable.

Contexte historique :

Développé par les laboratoires Hewlett-Packard entre 1985 et 1994.
Il a été porté sur Windows après 1996.
HP l'a rendu open source en 2005.
Sponsorisé par Google, c'est l'un des systèmes OCR open source les plus connus.

Caractéristiques techniques :

Techniques d'apprentissage profond : La reconnaissance de caractères à l'aide de techniques avancées d'apprentissage profond (par exemple, les réseaux neuronaux convolutifs) est très précise et donne de bons résultats, en particulier lorsqu'il s'agit d'images numérisées de meilleure qualité.
Support multilingue : Reconnaissance de texte dans plus de 100 langues.

Comparez-la à d'autres moteurs : Tesseract a une longue histoire, une communauté active et est bien documenté, mais il n'est peut-être pas aussi performant que certains moteurs d'OCR émergents pour gérer les mises en page complexes et les images de faible qualité.

Il existe également une version JavaScript de Tesseract OCR : Tesseract.js, mais après des tests réels, il s'est avéré que la version JS ne prend pas très bien en charge le chinois.

Il a reçu 65.3K étoiles sur GitHub jusqu'à présent.

开源地址：https://github.com/tesseract-ocr/tesseract
开源地址：https://github.com/naptha/tesseract.js

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Rapide et écologique : 10 outils d'IA à acquérir en 2025

Nouvelles de l'IA

Il y a 8 mois

012.2K

Le modèle de génération vidéo VBench en tête des classements... En tête des classements - WanX 2.1 sera bientôt en open source !

Nouvelles de l'IA

Il y a 7 mois

014K

DashInfer-VLM, performance d'inférence multimodale SOTA, ultra-vLLM !

Nouvelles de l'IA

Il y a 9 mois

017.2K

Les achats récents de DeepSeek All-in-One mettent en évidence les risques de contrefaçon liés à l'utilisation de Dify

Nouvelles de l'IA

Il y a 6 mois

014.5K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Inventaire approfondi des projets Open Source de l'OCR : les 10 premiers à ne pas manquer en 2025

01 GOT-OCR 2.0 : modèle d'OCR multimodal de bout en bout

02 InternVL : un puissant modèle multimodal open source

03 olmOCR : L'expert en structuration de documents PDF

04 Zerox : outil de conversion de documents structurés piloté par l'IA

05 Surya : Reconnaissance de textes multilingues et de structures de documents complexes

06 OCRmyPDF : Ajouter une couche de texte consultable aux PDF numérisés

07 Marker : conversion de documents PDF, d'images et d'autres documents multiformats

08 EasyOCR : une bibliothèque d'outils de reconnaissance de textes multilingues

09 Umi-OCR : logiciel OCR hors ligne à installer et à utiliser

10 Tesseract : Dieux anciens du champ OCR

La fonction "Canvas" tardive de Gemini, découvrez ce qu'elle peut faire !

Dify v1.1.0 Nouveau filtre intelligent "Metadata" pour la base de connaissances

Articles connexes

Rapide et écologique : 10 outils d'IA à acquérir en 2025

Le modèle de génération vidéo VBench en tête des classements... En tête des classements - WanX 2.1 sera bientôt en open source !

DashInfer-VLM, performance d'inférence multimodale SOTA, ultra-vLLM !

Les achats récents de DeepSeek All-in-One mettent en évidence les risques de contrefaçon liés à l'utilisation de Dify

Pas de commentaires

Dernières collections

Derniers articles

Inventaire approfondi des projets Open Source de l'OCR : les 10 premiers à ne pas manquer en 2025

01 GOT-OCR 2.0 : modèle d'OCR multimodal de bout en bout

02 InternVL : un puissant modèle multimodal open source

03 olmOCR : L'expert en structuration de documents PDF

04 Zerox : outil de conversion de documents structurés piloté par l'IA

05 Surya : Reconnaissance de textes multilingues et de structures de documents complexes

06 OCRmyPDF : Ajouter une couche de texte consultable aux PDF numérisés

07 Marker : conversion de documents PDF, d'images et d'autres documents multiformats

08 EasyOCR : une bibliothèque d'outils de reconnaissance de textes multilingues

09 Umi-OCR : logiciel OCR hors ligne à installer et à utiliser

10 Tesseract : Dieux anciens du champ OCR

La fonction "Canvas" tardive de Gemini, découvrez ce qu'elle peut faire !

Dify v1.1.0 Nouveau filtre intelligent "Metadata" pour la base de connaissances

Articles connexes

Rapide et écologique : 10 outils d'IA à acquérir en 2025

Le modèle de génération vidéo VBench en tête des classements... En tête des classements - WanX 2.1 sera bientôt en open source !

DashInfer-VLM, performance d'inférence multimodale SOTA, ultra-vLLM !

Les achats récents de DeepSeek All-in-One mettent en évidence les risques de contrefaçon liés à l'utilisation de Dify

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles