RAG base de connaissances extraction de documents essentiels comparaison de projets open source

Base de connaissances sur l'IAPosté il y a 6 mois Cercle de partage de l'IA

9.7K 00

Récemment, j'ai choisi un projet de service à la clientèle intelligent pour RAG Outils de traitement des données de la base de connaissances, un regard neuf sur les principaux projets actuels de traitement des documents, y compris olmOCR, Marker, MinerU, Docling, Markitdown, Llamaparse les six outils, et une brève comparaison de ceux-ci. Une vue d'ensemble. MinerU L'extraction de documents est plus générale et convient à toutes sortes de scénarios, mais les autres outils proposés ont leurs propres caractéristiques, à choisir en fonction de leurs besoins.

olmOCR

Architecture technique : basée sur le modèle du grand langage pour construire un processus complet de traitement des PDF. Il utilise une architecture distribuée pour prendre en charge le traitement parallèle à un ou plusieurs nœuds, et utilise sglang pour obtenir un raisonnement accéléré par le GPU.

Fonctionnalités : avec des capacités d'extraction de texte de haute qualité, peut extraire du texte brut structuré à partir de PDF complexes, gérer correctement les mises en page multi-colonnes, les tableaux, les équations mathématiques et le contenu écrit à la main. Il produit des résultats au format Markdown ; il coûte environ 190 dollars pour traiter 1 000 000 de pages PDF ; il est également plus performant que Marker, MinerU et GOT-OCR 2.0 et d'autres outils similaires.

Scénarios applicables : numérisation de documents universitaires, conversion de référentiels documentaires d'entreprise, construction d'ensembles de données d'entraînement à l'IA et récupération du contenu de documents historiques.

Avantage : projet open source, qualité d'analyse élevée, coût inférieur à celui des API commerciales, performances exceptionnelles.

❎ défauts : l'utilisation d'un seuil plus élevé, la nécessité d'une variété de dépendances du système ; est encore dans les premiers stades de développement, la documentation doit être améliorée ; ne prend actuellement en charge que l'analyse syntaxique des PDF et des images.

https://github.com/allenai/olmocr

Marqueur

Architecture technique : basée sur PyMuPDF et Tesseract OCR, support de l'accélération GPU (moteur Surya OCR), open source léger.

Fonctionnalités : Focus sur PDF vers Markdown, prise en charge des formules vers LaTeX, préservation des images en ligne, reconnaissance OCR des PDF scannés, prise en charge des documents multilingues.

Scénario : pour la littérature de recherche scientifique, les livres et d'autres besoins de conversion PDF de base, adapté aux utilisateurs ayant une formation technique pour un déploiement rapide.

Avantage : open source et gratuit, vitesse de traitement rapide (4 fois plus rapide que les produits similaires).

🙅‍♀️ Insuffisances : absence de capacité d'analyse complexe de la mise en page, dépendance à l'égard des ressources locales du GPU.

https://github.com/VikParuchuri/marker

MinerU

Architecture technique : Intégration de LayoutLMv3, YOLOv8 et d'autres modèles, prise en charge de l'analyse multimodale (tableau/formule/image), utilisation de Docker et de l'environnement CUDA.

Caractéristiques : Extraction précise du texte PDF, filtrage automatique des en-têtes/pieds de page, prise en charge des formats EPUB/MOBI/DOCX vers Markdown ou JSON, OCR multilingue (84 langues), modèle UniMERNet intégré optimisé pour la reconnaissance des formules.

Scénarios applicables : applicable à la gestion de la littérature universitaire, à l'analyse des états financiers et à d'autres scénarios nécessitant une structuration de haute précision.

Avantage : conformité de la sécurité à l'échelle de l'entreprise avec prise en charge de l'API et de l'interface graphique.

🙅Défauts : dépendance à l'égard des GPU, traitement des formulaires plus lent, configuration complexe.

https://github.com/opendatalab/MinerU

Docling

Architecture technique : conception modulaire, intégration de Unstructured, LayoutParser et d'autres bibliothèques, prise en charge de la localisation.

Fonctionnalités : analyse les formats PDF/DOCX/PPTX et autres, conservation de l'ordre de lecture et de la structure des tableaux, prise en charge de l'OCR et de l'intégration LangChain, sortie Markdown ou JSON.

Scénarios applicables : convient à la résolution des contrats d'entreprise, à l'automatisation des rapports et à d'autres applications complexes qui doivent être combinées à un cadre d'IA.

Avantage : compatible avec IBM Eco et prend en charge le traitement mixte multiformat.

🙅‍♀️ Insuffisant : un environnement CUDA est nécessaire et certaines fonctions reposent sur des modèles commerciaux.

https://github.com/DS4SD/docling

Markitdown

Architecture technique : projet Microsoft open source, intégration de GPT - 4 et d'autres modèles pour améliorer le traitement de l'IA, prise en charge de la conversion multiformat.

Fonctionnalités : Prise en charge de Word/Excel/PPT, d'images (OCR), d'audio (transcription vocale) vers Markdown, traitement par lots de fichiers ZIP, possibilité de générer des descriptions d'images (API OpenAI requise).

Scénario : convient à la création de contenus mixtes multiformats, tels que la transcription de graphiques PPT en documents, ainsi que la transcription audio et vidéo.

Avantage : prise en charge la plus complète des formats, convivialité pour les développeurs (API/CLI Python).

🙅‍♀️ lacunes : dépendance à l'égard d'API externes, certaines fonctionnalités nécessitent des modèles payants.

https://github.com/microsoft/markitdown

Llamaparse

Architecture technique : conçue pour RAG, combinant Azure OpenAI et la base de données vectorielle KDB AI pour optimiser la recherche sémantique.

Fonctionnalités : analyse de PDF complexes contenant des tableaux/graphiques, production de graphiques Markdown/LaTeX/Mermaid, prise en charge de la génération de graphiques de connaissances, conformité à la sécurité au niveau de l'entreprise.

Scénarios d'application : pour l'analyse de documents juridiques, les questions-réponses de manuels techniques et d'autres applications intelligentes qui doivent être combinées avec LLM.

Avantage : grande précision de l'analyse syntaxique et prise en charge de l'optimisation sémantique des données semi-structurées.

🙅‍♂️ Points faibles : vitesse de traitement lente, crédits gratuits limités, clé API requise.

https://docs.llamaindex.ai/en/stable/llama_cloud/llama_parse