Extraction et nettoyage de documents

Total 67 articles

mettre en ordre

OneFileLLM : Intégration de plusieurs sources de données dans un seul fichier texte

Introduction OneFileLLM est un outil de ligne de commande open source conçu pour consolider plusieurs sources de données en un seul fichier texte afin de faciliter l'entrée dans les grands modèles de langage (LLM). Il permet de traiter les dépôts GitHub, les articles ArXiv, les transcriptions de vidéos YouTube, les...

il y a 5 mois

017.8K

Chatlog : outil open source permettant d'extraire et d'interroger les journaux de discussion de WeChat

Introduction générale Chatlog est un outil open source qui se concentre sur l'extraction et l'interrogation des journaux de chat à partir de la base de données locale de WeChat. Il prend en charge les versions 3.x et 4.0 de WeChat, pour les systèmes Windows et macOS. Les utilisateurs peuvent utiliser la ligne de commande, l'interface terminal ou H...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Services MCP # Extraction et nettoyage de documents

il y a 5 mois

029.9K

VOP : outil d'OCR pour l'extraction de diagrammes complexes et de formules mathématiques

Introduction complète Versatile OCR Program est un outil de reconnaissance optique de caractères (OCR) open source conçu pour travailler avec des documents académiques et éducatifs complexes. Il peut extraire du texte, des tableaux, des formules mathématiques, des diagrammes et des schémas à partir de PDF, d'images et d'autres documents et générer...

Dernières ressources sur l'IA # AI Java Open Source Projecct # OCR # Extraction et nettoyage de documents

il y a 5 mois

016.5K

DevDocs : un service MCP pour l'exploration et l'organisation rapides de la documentation technique

Introduction générale DevDocs est un outil open source entièrement gratuit développé par l'équipe de CyberAGI et hébergé sur GitHub. Conçu pour les programmeurs et les développeurs de logiciels, il part de l'URL d'un document technique, parcourt automatiquement les pages pertinentes et les organise en un Ma...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Services MCP # Extraction et nettoyage de documents

il y a 5 mois

018.3K

Analyse automatique du contenu des PDF et extraction du texte et des tableaux des services open source

Introduction complète Il analyse automatiquement la mise en page des documents PDF, identifie le texte, les titres, les images, les tableaux, les formules et autres éléments de la page, et détermine leur ordre correct. L'outil prend en charge la fonctionnalité OCR et peut convertir les PDF numérisés en texte consultable. Il fonctionne sur Docker et fournit deux modèles...

Dernières ressources sur l'IA # AI Java Open Source Projecct # OCR # Extraction et nettoyage de documents

il y a 5 mois

018.7K

Convertir gratuitement plusieurs fichiers au format Markdown en fonction de Workers AI

Introduction générale serverless-markdown-convertor est un outil gratuit et open source, basé sur Cloudflare Worker et Workers AI, qui convertit un large éventail de fichiers en Markdow...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 6 mois

016.9K

GPT-Crawler : exploration automatique du contenu d'un site web pour générer des documents de base de connaissances

Introduction générale GPT-Crawler est un outil open source développé par l'équipe BuilderIO et hébergé sur GitHub. Il explore le contenu des pages en entrant une ou plusieurs URL de sites web, générant des fichiers de connaissance structurés (output.jso...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 3 mois

019.3K

pure.md : insérer "pure.md/" devant l'URL pour extraire le texte propre.

Introduction générale pure.md est un outil pour les agents d'intelligence artificielle et les développeurs qui se concentre sur la conversion rapide du contenu Web ou des fichiers au format Markdown. Il contourne les restrictions anti-crawler par le biais de services proxy, extrait les données essentielles d'une page web et produit un ...

Dernières ressources sur l'IA # AI Open Services # Extraction et nettoyage de documents

Il y a 6 mois

017.9K

Cloudsquid : téléchargez des documents et décrivez vos besoins en matière d'extraction intelligente de données structurées.

Introduction générale Cloudsquid est une entreprise fondée en 2023 à Berlin, en Allemagne, dont l'objectif est de simplifier le traitement des documents grâce à l'intelligence artificielle. Son produit phare est une plateforme d'extraction de données en ligne qui permet aux utilisateurs de télécharger simplement des documents tels que des PDF, des images, de l'audio, de la vidéo, etc. et d'indiquer simplement qu'ils ont besoin d'extraire...

Dernières ressources sur l'IA # Extraction et nettoyage de documents

Il y a 6 mois

017.2K

PDF Craft : outils open source de conversion de documents PDF numérisés en Markdown

Introduction générale PDF Craft est un outil open source conçu pour scanner des PDF de livres et les convertir au format Markdown. Il a été développé par oomol-lab et est hébergé sur GitHub pour les utilisateurs qui souhaitent organiser leurs livres électroniques. L'outil fonctionne à travers ce ...

Dernières ressources sur l'IA # AI Java Open Source Projecct # OCR # Extraction et nettoyage de documents

Il y a 6 mois

021K

Supametas.AI : Extraction de données non structurées en données hautement disponibles LLM

Introduction complète Supametas.AI est une plateforme de traitement de données spécialisée dans l'organisation du fouillis de pages web, de documents, de fichiers audio et vidéo en données structurées utilisables par l'intelligence artificielle. Elle permet de collecter des données à partir de sources multiples, y compris des liens web, des API, des fichiers locaux, etc., et de les restituer sous forme de JSON ...

Dernières ressources sur l'IA # AI Open Services # Extraction et nettoyage de documents

Il y a 6 mois

016.7K

MarkPDFDown : convertir des PDF en Markdown sur la base d'un modèle multimodal

Introduction générale MarkPDFDown est un outil open source. Il utilise le Multimodal Big Language Model pour convertir les fichiers PDF au format Markdown. Le développeur est l'utilisateur GitHub jorben. Le but de cet outil est simple : rendre les documents PDF ...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 6 mois

018.5K

SmolDocling : un modèle de langage visuel pour le traitement efficace de documents en petit volume

Introduction complète SmolDocling est un modèle de langage visuel (VLM) développé par l'équipe ds4sd en collaboration avec IBM, construit sur SmolVLM-256M et hébergé sur la plateforme Hugging Face. Il est de petite taille, seulement ...

Dernières ressources sur l'IA # AI Java Open Source Projecct # OCR # Extraction et nettoyage de documents

Il y a 6 mois

017.5K

Flying Paddle PP-TableMagic : Extraction d'informations structurées pour les tableaux complexes

L'objectif de la reconnaissance de tableaux est d'analyser les tableaux dans les images, d'identifier avec précision les structures des tableaux et l'emplacement des cellules, et de les réduire à des formats de tableaux structurés (par exemple, HTML). À l'ère de l'information, un grand nombre de données tabulaires importantes existent encore à l'état non structuré (par exemple, des documents scannés avec des images de tableaux statistiques...).

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 6 mois

019.5K

Mistral OCR : 94.89% Précision globale, 1000 pages/30 secondes, seulement $1

Dans la longue histoire de la civilisation humaine, chaque progrès dans la manière d'acquérir et d'analyser l'information a profondément contribué au progrès social. Des hiéroglyphes antiques au papyrus portable, en passant par l'apparition de l'imprimerie et de la vague numérique actuelle, chaque innovation technologique a considérablement élargi le paradigme de la diffusion des connaissances humaines...

Dernières ressources sur l'IA # AI Open Services # OCR # Extraction et nettoyage de documents

Il y a 7 mois

020.9K

Firecrawl MCP Server：基于 Firecrawl 的网页爬虫 MCP 服务

Serveur MCP Firecrawl : Service MCP de crawler Web basé sur Firecrawl

Introduction générale Firecrawl MCP Server est un outil open source développé par MendableAI, basé sur l'implémentation du protocole Model Context Protocol (MCP), avec Firecrawl A...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Services MCP # Extraction et nettoyage de documents

Il y a 6 mois

020.3K

olmOCR : conversion de documents PDF en texte, prise en charge des tableaux, des formules et de la reconnaissance du contenu manuscrit

Introduction générale olmOCR est un outil open source développé par l'équipe AllenNLP de l'Allen Institute for Artificial Intelligence (AI2) qui se concentre sur la conversion de fichiers PDF...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 7 mois

020.3K

par_scrape : un outil d'exploration pour l'extraction intelligente de données web

Introduction générale par_scrape est un outil de crawler web open source basé sur Python, lancé sur GitHub par le développeur Paul Robello, conçu pour aider les utilisateurs à extraire intelligemment des données à partir de pages web. Il intègre Selenium...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 7 mois

017.2K

PDF-Extract-Kit : Extraire la structure complexe du contenu PDF de l'outil open-source

Introduction complète PDF-Extract-Kit est un projet open source développé par l'équipe d'OpenDataLab, qui se concentre sur l'extraction efficace de contenu de haute qualité à partir de documents PDF complexes et diversifiés. Il intègre une technologie avancée d'analyse de documents pour prendre en charge la détection de la mise en page, la reconnaissance des formules ...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 7 mois

029.8K

Crawl4LLM : un outil efficace d'exploration du Web pour le pré-entraînement LLM

Introduction détaillée Crawl4LLM est un projet open source développé conjointement par l'université Tsinghua et l'université Carnegie Mellon, qui se concentre sur l'optimisation de l'efficacité de l'exploration du web pour le pré-entraînement des grands modèles (LLM). Il réduit considérablement l'inefficacité du crawling en sélectionnant intelligemment des données web de haute qualité, affirmant pouvoir...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 7 mois

017.5K

Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式

Serveur MCP Markdownify : convertit divers contenus au format Markdown sur la base du protocole MCP.

Introduction générale Markdownify MCP Server est un outil open source basé sur le Model Context Protocol, hébergé sur GitHub par le développeur Zach Caceres ...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Services MCP # Extraction et nettoyage de documents

Il y a 6 mois

019.2K

CodeWeaver : génère automatiquement des documents Markdown à partir de la structure et du contenu du code.

Introduction générale CodeWeaver est un outil en ligne de commande conçu pour tisser des bibliothèques de code dans des documents Markdown uniques et faciles à naviguer. Il génère une représentation structurée de la hiérarchie des fichiers d'un projet en analysant récursivement les répertoires et en intégrant le contenu de chaque fichier dans des blocs de code. Cet outil...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 7 mois

017.2K

Kreuzberg : outil open source pour extraire du texte de n'importe quel document

Introduction générale Kreuzberg est une bibliothèque permettant de simplifier l'extraction de texte à partir de fichiers PDF, conçue pour fournir une solution d'extraction de texte simple et sans souci. La bibliothèque est particulièrement adaptée à RAG (Retrieval-Augmented Generatio...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 7 mois

019.4K

Instructeur : une bibliothèque Python pour simplifier les flux de production structurés pour les grands modèles de langage

Introduction générale Instructor est une bibliothèque Python populaire conçue pour traiter les résultats structurés des grands modèles de langage (LLM). Construite sur Pydantic, elle fournit une API simple, transparente et conviviale pour gérer les données...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 7 mois

016.3K

zChunk : une stratégie générique de découpage sémantique basée sur Llama-70B

Introduction zChunk est une nouvelle stratégie de découpage développée par ZeroEntropy qui vise à fournir une solution pour le découpage sémantique générique. La stratégie est basée sur le modèle Llama-70B, qui optimise le processus de découpage des documents en demandant la génération de morceaux, garantissant ainsi que la recherche d'informations est maintenue à un niveau élevé....

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 7 mois

017.3K

Pulse : Solutions professionnelles pour le traitement de documents et l'extraction de données

Introduction complète Pulse est une plateforme intelligente axée sur le traitement de documents et l'extraction de données, conçue pour aider les entreprises et les développeurs à analyser et à traiter efficacement un large éventail de documents complexes. Grâce à sa technologie avancée de vision par ordinateur et de traitement multimodal, Pulse est capable d'extraire avec précision des données à partir de textes, d'images, de tableaux et...

Dernières ressources sur l'IA # Extraction et nettoyage de documents

Il y a 7 mois

018.4K

Rowfill : Extraction par lots d'informations structurées à partir de documents et analyse automatisée

Introduction générale Rowfill est une plateforme de traitement de documents open source conçue pour les travailleurs du savoir. Elle utilise des techniques avancées d'intelligence artificielle pour extraire, analyser et traiter des données à partir de documents complexes, d'images et de PDF.

Dernières ressources sur l'IA # AI Java Open Source Projecct # Analyse des données de l'IA # Extraction et nettoyage de documents

Il y a 8 mois

016.7K

PPTX2MD : Outil spécial pour convertir les fichiers PPTX en Markdown

Introduction générale PPTX2MD est un outil open source conçu pour convertir les fichiers PowerPoint PPTX au format Markdown. Développé par l'utilisateur GitHub ssine, l'outil permet de préserver les titres, les listes, le formatage du texte (par ex. gras, italique, couleurs et...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 8 mois

018.8K

Repomix : emballage de la base de code dans un fichier texte pour la récupération de modèles de grande taille

Introduction générale Repomix (anciennement connu sous le nom de Repopack) est un outil open source conçu pour empaqueter une base de code entière dans un fichier unique, adapté à l'IA. Cet outil permet aux développeurs de mettre facilement leur base de code à la disposition de grands modèles de langage (tels que Claude, Chat...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 8 mois

024.1K

Yek : lecture des fichiers texte du dépôt git et découpage rapide pour les modèles de grande taille

Introduction générale Yek est un outil rapide basé sur Rust pour lire des fichiers texte à partir de dépôts ou de répertoires, les découper et les sérialiser pour les utiliser dans de grands modèles de langage (LLM). L'outil utilise la règle .gitignore par défaut pour ignorer les fichiers inutiles, et utilise...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 8 mois

021.1K

LlamaParse：Llamaindex推出的高品质解析文档，提取数据服务（每日免费提取1000页）

LlamaParse : Service d'analyse de documents et d'extraction de données de haute qualité par Llamaindex (1000 pages par jour gratuitement).

Introduction complète LlamaParse est un puissant outil d'analyse de documents qui peut traiter des documents complexes tels que des PDF, des PowerPoint, des documents Word et des feuilles de calcul et les convertir en données...

Dernières ressources sur l'IA # AI Open Services # Extraction et nettoyage de documents

Il y a 8 mois

018.8K

UnDatas.IO : service API pour l'analyse précise de divers types de données non structurées (payant)

Introduction complète UnDatas.IO est une plateforme axée sur l'analyse et le traitement des données non structurées. Elle utilise une technologie avancée pour reconnaître automatiquement la mise en page des documents et classer les tableaux, les images, les formules et le texte, ce qui simplifie grandement le processus de traitement des données. La plateforme permet non seulement de gagner beaucoup de temps dans le tri des données...

Dernières ressources sur l'IA # AI Open Services # Extraction et nettoyage de documents

Il y a 8 mois

016.9K

Zerox : PDF, DOCX, conversion d'images en Markdown, modèle visuel OCR de haute précision

Introduction générale Zerox est un projet open source conçu pour convertir des documents PDF, DOCX, des images et d'autres documents au format Markdown par le biais de modèles visuels. Le projet est développé par l'équipe getomni-ai et fournit une solution OCR (Optical Character Recognition) simple et efficace....

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 8 mois

024.2K

SemHash : Mise en œuvre rapide de la déduplication sémantique du texte pour améliorer l'efficacité du nettoyage des données

Introduction complète SemHash est un outil léger et flexible pour dédupliquer des ensembles de données par similarité sémantique. Il combine la génération rapide d'embedding de Model2Vec avec la recherche de similarité ANN (approximate nearest neighbour) de Vicinity....

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 8 mois

020K

Parseur : extraction automatisée de données documentaires, extraction de texte structuré à partir de divers documents

Description générale Parseur est un logiciel d'extraction de données conçu pour aider les utilisateurs à extraire automatiquement des données textuelles à partir de PDF, d'emails et d'autres documents. Avec Parseur, les utilisateurs peuvent facilement convertir les données non structurées en données structurées et les envoyer à diverses applications...

Dernières ressources sur l'IA # Extraction et nettoyage de documents

Il y a 8 mois

019.1K

Fonctions d'IA : un service (API) pour convertir le contenu d'entrée en sorties structurées.

Introduction complète Weco AI Functions est une plateforme puissante conçue pour aider les utilisateurs à créer et à déployer rapidement des fonctions d'IA. En décrivant simplement les tâches, les utilisateurs peuvent générer des modèles de sortie structurés avec des tests A/B et des contrôles d'observation. La plateforme prend en charge le prototypage sans code...

Dernières ressources sur l'IA # AI Open Services # Extraction et nettoyage de documents

Il y a 7 mois

016.8K

NV Ingest : analyse de documents au format complexe, extraction de données multimodales en métadonnées et en texte

Introduction complète NV Ingest (NVIDIA Ingest) est une suite de microservices en accès anticipé conçus pour analyser des centaines de milliers de PDF non structurés complexes et désordonnés et d'autres documents d'entreprise. Il peut convertir ces documents en métadonnées et en texte pour les intégrer dans des...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 8 mois

021.2K

Trellis：转换非结构文档为结构化EXCEL格式数据，PDF快速转表格（付费）

Trellis : convertir des documents non structurés en données structurées au format EXCEL, PDF fast to form (payant)

Introduction générale Trellis est une plateforme de données axée sur la conversion de sources de données non structurées complexes en formats SQL structurés. Grâce à son puissant moteur d'IA, Trellis est capable de traiter un large éventail de sources de données telles que des documents financiers, des appels vocaux et des courriels, et de les convertir en données utilisables et...

Dernières ressources sur l'IA # Extraction et nettoyage de documents

Il y a 8 mois

016K

Ollama OCR : Extraction de texte à partir d'images à l'aide de modèles visuels dans Ollama

Introduction Ollama OCR est une puissante boîte à outils de reconnaissance optique de caractères (OCR) qui utilise le modèle de langage visuel de pointe fourni par la plate-forme Ollama pour extraire du texte à partir d'images. Le projet est disponible sous la forme d'un paquetage Python et fournit des...

Dernières ressources sur l'IA # AI Java Open Source Projecct # OCR # Extraction et nettoyage de documents

Il y a 8 mois

028.4K

llms.txt Generator：快速抓取网站内容并，生成LLM训练文本数据集

Générateur llms.txt : capturez rapidement le contenu d'un site web et générez des ensembles de données textuelles de formation LLM.

Introduction complète llmstxt-generator est un outil professionnel d'extraction et d'intégration de contenu web dédié à la préparation d'ensembles de données textuelles de haute qualité pour l'entraînement et l'inférence dans le cadre de la modélisation du langage étendu (LLM). L'outil a été développé par Mendable AI en utilisant @firec...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 9 mois

019.1K

Doc2X : outils de reconnaissance et de conversion de formules d'images de documents, prise en charge de la conversion multiformat et de la traduction de haute précision

Introduction Doc2X est un puissant outil de reconnaissance et de conversion de formules d'images de documents, qui s'engage à fournir des solutions de traitement de documents efficaces et intelligentes. Qu'il s'agisse d'un travail de recherche universitaire, d'un manuel, d'un document d'entreprise ou d'un rapport financier, Doc2X peut identifier avec précision les...

Dernières ressources sur l'IA # AI Open Services # AI Traduction # Extraction et nettoyage de documents

Il y a 8 mois

020.5K

ExtractThinker : extraction et catégorisation de documents en données structurées pour optimiser le processus de traitement des documents

Introduction ExtractThinker est un outil flexible d'intelligence documentaire qui extrait et classifie des données structurées à partir de documents en utilisant de grands modèles de langage (LLM), fournissant un flux de travail de traitement de documents transparent de type ORM. Il prend en charge une variété de chargeurs de documents, y compris Tess...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 9 mois

018.7K

HtmlRAG：构建高效HTML检索增强生成系统，优化RAG系统中的HTML文档检索与处理

HtmlRAG : Building an Efficient HTML Retrieval Enhanced Generation System, Optimising HTML Document Retrieval and Processing in RAG Systems (en anglais)

Introduction complète HtmlRAG est un projet open source innovant visant à améliorer le traitement des documents HTML dans les systèmes RAG (Retrieval Augmented Generation). Le projet présente une nouvelle approche qui soutient que l'utilisation du format HTML dans les systèmes RAG est plus efficace que le texte brut. Le projet contient un ...

Dernières ressources sur l'IA # Extraction et nettoyage de documents # Recherche de connaissances et cadre RAG

Il y a 9 mois

019.6K

ScrapeGraphAI：一个提示词搞定网页抓取，无需编写规则智能网页内容提取工具

ScrapeGraphAI : un seul mot pour l'exploration du web, pas besoin d'écrire des règles outil intelligent d'extraction de contenu web

Introduction complète ScrapeGraphAI est une bibliothèque innovante de scraping web en Python qui combine astucieusement le Large Language Modelling (LLM) et la Direct Graph Logic pour créer des pipelines de scraping pour les sites web et les documents locaux. Ce qui rend cet outil unique est son niveau parfait de simplicité et de puissance...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 8 mois

017.1K

Vision Parse : Conversion intelligente de documents PDF au format Markdown à l'aide de modèles de langage visuel

Introduction Vision Parse est un outil révolutionnaire de traitement de documents, il combine astucieusement la technologie la plus avancée des modèles de langage visuel (Vision Language Models), la capacité de convertir intelligemment des documents PDF en format Markdown de haute qualité...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 9 mois

016.6K

Outlines：通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Outlines : générer un texte structuré via des expressions régulières, JSON ou des modèles pydantiques

Introduction générale Outlines est une bibliothèque open source développée par dottxt-ai pour améliorer l'application des grands modèles de langage (LLM) par la génération de textes structurés. La bibliothèque prend en charge une variété d'intégrations de modèles, y compris OpenAI, les transformateurs...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 7 mois

025.4K

MarkItDown : Outil de conversion intelligent de Microsoft Document pour convertir divers fichiers au format Markdown

Introduction générale MarkItDown est un outil Python développé par Microsoft et conçu pour convertir divers fichiers et documents bureautiques au format Markdown. L'outil prend en charge un large éventail de types de fichiers, notamment PDF, PowerPoint, Word, Excel, diagrammes...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 9 mois

019.5K

Chunkr : un service tout-en-un qui utilise des modèles visuels pour l'ingestion de documents et le découpage intelligent basé sur la hiérarchie des paragraphes du texte.

Introduction générale Chunkr est une API auto-hébergée dédiée à la conversion de fichiers PDF, PPTX, DOCX et Excel en données utilisables dans RAG (Retrieval Augmented Generation) et LLM (Large Language Modelling). Le projet a été développé par Lumina...

Dernières ressources sur l'IA # AI Java Open Source Projecct # OCR # Extraction et nettoyage de documents

Il y a 9 mois

021.1K

GitIngest : Convertir rapidement les dépôts de code Github en texte adapté à la compréhension du LLM

Introduction générale GitIngest est un outil open source conçu pour transformer les dépôts de code GitHub en texte adapté aux indices du Large Language Model (LLM). Avec une simple opération, les utilisateurs peuvent extraire et formater le contenu de n'importe quel dépôt GitHub pour qu'il corresponde au ...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 9 mois

023.9K

E2M : Conversion de plusieurs formats de fichiers en Markdown, pour une mise en forme uniforme des documents

Introduction générale E2M (Everything to Markdown) est une bibliothèque Python open source conçue pour convertir un large éventail de formats de fichiers au format Markdown. L'outil prend en charge les formats doc, docx, epub, html, htm, u...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 9 mois

020.9K

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Docling : prise en charge d'une variété de formats, analyse et exportation de documents en Markdown et JSON, prise en charge des PDF, OCR

Introduction Docling est un puissant outil d'analyse et d'exportation de documents qui prend en charge un large éventail de formats de documents, notamment PDF, DOCX, PPTX, XLSX, Image, HTML, AsciiDoc et Markdown.

Dernières ressources sur l'IA # AI Java Open Source Projecct # OCR # Extraction et nettoyage de documents

Il y a 9 mois

028.7K

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息

MegaParse : analyse chaque type de document en données disponibles en LLM, en préservant toutes les informations du document, telles que les tableaux et les images, dans leur intégralité.

Introduction générale MegaParse est un outil d'analyse de documents puissant et polyvalent, conçu pour optimiser le traitement des données pour le Large Language Model (LLM). Que vous travailliez avec du texte, des PDF, des présentations PowerPoint ou des documents Word, MegaParse...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 10 mois

020K

ViTLP : Extraction de données structurées à partir de documents PDF typographiquement complexes et génération guidée visuellement de modèles pré-entraînés pour la mise en page de textes

Introduction complète ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) est un projet open source conçu pour...

Dernières ressources sur l'IA # OCR # Extraction et nettoyage de documents

Il y a 10 mois

018K

Trieve : une infrastructure en nuage RAG offrant un service complet de recherche, de recommandations et d'analyse.

Introduction générale Trieve est une infrastructure globale développée par Devflow, Inc. et conçue pour la recherche, les recommandations, la RAG (Retrieval Augmented Generation) et l'analyse. La plateforme est servie par une API et prend en charge l'auto-hébergement pour AWS, GCP, K...

Dernières ressources sur l'IA # AI Open Services # Extraction et nettoyage de documents

Il y a 10 mois

018.8K

pdf2htmlEX：PDF无损转换为HTML，保持文本格式，适用于学术论文和杂志排版

pdf2htmlEX : conversion sans perte de PDF en HTML, en conservant le formatage du texte, adapté aux travaux universitaires et à la composition de magazines.

Introduction pdf2htmlEX est un outil open source conçu pour convertir les fichiers PDF au format HTML , en analysant le contenu du fichier PDF et en utilisant HTML + CSS pour restaurer avec précision son effet visuel , le document PDF sera converti en un navigateur ....

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 10 mois

018.3K

Maxun : une plateforme open source, sans code, qui explore automatiquement les données web et les convertit en API ou en feuilles de calcul.

Introduction complète Maxun est une plateforme open source d'extraction de données web sans code qui permet aux utilisateurs de former des robots en quelques minutes pour explorer automatiquement les données web et les convertir en API ou en feuilles de calcul. La plateforme prend en charge la pagination et le défilement, s'adapte aux changements de mise en page des sites web, fournit de puissantes...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 9 mois

019.6K

OmniParse : extrait des données non structurées de documents/multimédias et les analyse en données structurées.

Introduction générale OmniParse est une puissante plateforme d'analyse et d'optimisation de données conçue pour transformer toutes les données non structurées en données structurées, exploitables et optimisées pour le cadre GenAI (Generative Artificial Intelligence). Que vous travailliez avec des documents, des tableaux, des images, des vidéos, des fichiers audio ou...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 10 mois

017.8K

Parsio : Extraction automatique de données structurées clés à partir de PDF, d'e-mails et d'autres documents

Description générale Parsio est un outil d'extraction de données de documents et d'e-mails basé sur l'IA qui extrait automatiquement des données structurées à partir de PDF, d'e-mails et d'autres documents. La plateforme fournit un puissant analyseur de PDF et une fonctionnalité OCR et prend en charge un large éventail de types de documents, y compris...

Dernières ressources sur l'IA # Extraction et nettoyage de documents

Il y a 10 mois

018.1K

Chonkie : une bibliothèque légère de découpage de texte en RAG

Introduction complète Chonkie est une bibliothèque de découpage de texte RAG (Retrieval-Augmented Generation) légère et efficace, conçue pour aider les développeurs à découper rapidement et facilement du texte. La bibliothèque prend en charge une variété de méthodes de découpage, y compris ...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 7 mois

020.8K

TextIn : Conversion universelle de documents, outil de conversion de PDF en Markdown

Introduction TextIn est un outil professionnel de conversion de PDF en Markdown conçu pour aider les utilisateurs à convertir efficacement des documents PDF au format Markdown. L'outil prend en charge une grande variété de formats de fichiers, il est facile à utiliser, la vitesse de conversion est rapide, le format et le contenu du PDF d'origine sont conservés...

Dernières ressources sur l'IA # Extraction et nettoyage de documents

Il y a 11 mois

017.5K

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

API d'extraction de texte (text-extract-api) : extraction visuelle d'informations textuelles, outil d'extraction de PDF anonymes

Introduction complète L'API d'extraction de texte (text-extract-api) est un outil puissant conçu pour extraire et analyser le contenu d'une variété de formats de documents (par exemple PDF, Word, PPTX, etc.). L'API utilise la technologie de pointe de la reconnaissance optique de caractères (OCR) et Ol...

Dernières ressources sur l'IA # AI Java Open Source Projecct # OCR # Extraction et nettoyage de documents

Il y a 8 mois

017.8K

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab : modèle d'IA dédié à la reconnaissance OCR, PDF to Markdown (open source/API)

Introduction complète Datalab propose une gamme de modèles d'IA avancés axés sur l'OCR, l'analyse de la mise en page, la conversion de PDF en Markdown et bien plus encore. Ces modèles sont non seulement très performants, mais aussi faciles à utiliser et open source. Les modèles Marker de la plateforme peuvent rapidement et précisément...

Dernières ressources sur l'IA # AI Open Services # AI Java Open Source Projecct # OCR

Il y a 11 mois

021.1K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU : extraction de documents PDF et conversion au format Markdown multimodal, prise en charge de la numérisation OCR des livres électroniques

Introduction complète MinerU est un outil d'extraction de données open source développé par l'équipe OpenDataLab du Shanghai Artificial Intelligence Laboratory, qui se concentre sur l'extraction efficace du contenu de documents PDF complexes, de pages web et de livres électroniques. Il est capable de prendre des PDF multimodaux contenant des images, des formules, des tableaux et d'autres éléments...

Dernières ressources sur l'IA # AI Java Open Source Projecct # OCR # Extraction et nettoyage de documents

Il y a 12 mois

036.9K

Marker : conversion rapide de PDF en Markdown outils open source

Introduction générale Marker est un outil de traitement de documents basé sur l'apprentissage profond, conçu pour convertir rapidement et précisément des fichiers PDF au format Markdown. Il prend en charge un large éventail de types de documents et est particulièrement optimisé pour la conversion de livres et d'articles scientifiques. Il prend en charge un large éventail de types de documents et est particulièrement optimisé pour la conversion de livres et d'articles scientifiques....

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 7 mois

031.8K

Mathpix : logiciel de conversion structurée de documents PDF et d'images, prise en charge du multiterminal

Description générale Mathpix est un puissant outil d'automatisation de documents piloté par l'IA et conçu pour les chercheurs, les développeurs et les entreprises. Il convertit rapidement et avec précision les PDF et les images en texte consultable, exportable et lisible par machine.

Dernières ressources sur l'IA # AI Open Services # Extraction et nettoyage de documents

il y a 1 an

028.3K

Non structuré : outils open source de prétraitement de documents non structurés, outils de traitement de données non structurées

Introduction complète Unstructured-IO fournit un ensemble de composants open source pour le traitement et le prétraitement d'images et de documents textuels tels que PDF, HTML, documents Word, etc. Son objectif principal est de simplifier et d'optimiser les flux de traitement des données, en particulier pour les grands modèles de langage (LL...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

il y a 1 an

021.3K

Reader API : outil d'extraction de contenu web, conversion de HTML en Markdown

Introduction générale Le projet Reader de Jina AI est un outil open source (Reader open source address) qui prend n'importe quelle URL en ajoutant le préfixe https://r.jina.ai/转换成适合大型语言模型 (Large Languag...

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

il y a 1 an

027.2K

Ce n'est pas le cas.