Extraction et nettoyage de documents

Total 67 articles
OneFileLLM:整合多种数据源为单一文本文件

OneFileLLM : Intégration de plusieurs sources de données dans un seul fichier texte

Introduction OneFileLLM est un outil de ligne de commande open source conçu pour consolider plusieurs sources de données en un seul fichier texte afin de faciliter l'entrée dans les grands modèles de langage (LLM). Il permet de traiter les dépôts GitHub, les articles ArXiv, les transcriptions de vidéos YouTube, les...
Il y a 4 mois
01.4K
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog : outil open source permettant d'extraire et d'interroger les journaux de discussion de WeChat

Introduction générale Chatlog est un outil open source qui se concentre sur l'extraction et l'interrogation des journaux de chat à partir de la base de données locale de WeChat. Il prend en charge les versions 3.x et 4.0 de WeChat, pour les systèmes Windows et macOS. Les utilisateurs peuvent utiliser la ligne de commande, l'interface terminal ou H...
Il y a 4 mois
01.9K
VOP:提取复杂图表与数学公式的OCR工具

VOP : outil d'OCR pour l'extraction de diagrammes complexes et de formules mathématiques

Introduction complète Versatile OCR Program est un outil de reconnaissance optique de caractères (OCR) open source conçu pour travailler avec des documents académiques et éducatifs complexes. Il peut extraire du texte, des tableaux, des formules mathématiques, des diagrammes et des schémas à partir de PDF, d'images et d'autres documents et générer...
Il y a 4 mois
01.4K
DevDocs:快速抓取并整理技术文档的MCP服务

DevDocs : un service MCP pour l'exploration et l'organisation rapides de la documentation technique

Introduction générale DevDocs est un outil open source entièrement gratuit développé par l'équipe de CyberAGI et hébergé sur GitHub. Conçu pour les programmeurs et les développeurs de logiciels, il part de l'URL d'un document technique, parcourt automatiquement les pages pertinentes et les organise en un Ma...
Il y a 4 mois
01.4K
自动解析PDF内容并提取文字与表格的开源服务

Analyse automatique du contenu des PDF et extraction du texte et des tableaux des services open source

Introduction complète Il analyse automatiquement la mise en page des documents PDF, identifie le texte, les titres, les images, les tableaux, les formules et autres éléments de la page, et détermine leur ordre correct. L'outil prend en charge la fonctionnalité OCR et peut convertir les PDF numérisés en texte consultable. Il fonctionne sur Docker et fournit deux modèles...
Il y a 4 mois
01.1K
pure.md:网址前插入“pure.md/”即可提取干净的文本

pure.md : insérer "pure.md/" devant l'URL pour extraire le texte propre.

Introduction générale pure.md est un outil pour les agents d'intelligence artificielle et les développeurs qui se concentre sur la conversion rapide du contenu Web ou des fichiers au format Markdown. Il contourne les restrictions anti-crawler par le biais de services proxy, extrait les données essentielles d'une page web et produit un ...
il y a 5 mois
01.3K
Cloudsquid:上传文档并描述要求智能提取结构化数据

Cloudsquid : téléchargez des documents et décrivez vos besoins en matière d'extraction intelligente de données structurées.

Introduction générale Cloudsquid est une entreprise fondée en 2023 à Berlin, en Allemagne, dont l'objectif est de simplifier le traitement des documents grâce à l'intelligence artificielle. Son produit phare est une plateforme d'extraction de données en ligne qui permet aux utilisateurs de télécharger simplement des documents tels que des PDF, des images, de l'audio, de la vidéo, etc. et d'indiquer simplement qu'ils ont besoin d'extraire...
il y a 5 mois
01.2K
PDF Craft:PDF扫描文件转Markdown的开源工具

PDF Craft : outils open source de conversion de documents PDF numérisés en Markdown

Introduction générale PDF Craft est un outil open source conçu pour scanner des PDF de livres et les convertir au format Markdown. Il a été développé par oomol-lab et est hébergé sur GitHub pour les utilisateurs qui souhaitent organiser leurs livres électroniques. L'outil fonctionne à travers ce ...
il y a 5 mois
01.3K
Supametas.AI:提取非结构化数据为LLM高可用数据

Supametas.AI : Extraction de données non structurées en données hautement disponibles LLM

Introduction complète Supametas.AI est une plateforme de traitement de données spécialisée dans l'organisation du fouillis de pages web, de documents, de fichiers audio et vidéo en données structurées utilisables par l'intelligence artificielle. Elle permet de collecter des données à partir de sources multiples, y compris des liens web, des API, des fichiers locaux, etc., et de les restituer sous forme de JSON ...
il y a 5 mois
01.1K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

Flying Paddle PP-TableMagic : Extraction d'informations structurées pour les tableaux complexes

L'objectif de la reconnaissance de tableaux est d'analyser les tableaux dans les images, d'identifier avec précision les structures des tableaux et l'emplacement des cellules, et de les réduire à des formats de tableaux structurés (par exemple, HTML). À l'ère de l'information, un grand nombre de données tabulaires importantes existent encore à l'état non structuré (par exemple, des documents scannés avec des images de tableaux statistiques...).
il y a 5 mois
02.2K
Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元

Mistral OCR : 94.89% Précision globale, 1000 pages/30 secondes, seulement $1

Dans la longue histoire de la civilisation humaine, chaque progrès dans la manière d'acquérir et d'analyser l'information a profondément contribué au progrès social. Des hiéroglyphes antiques au papyrus portable, en passant par l'apparition de l'imprimerie et de la vague numérique actuelle, chaque innovation technologique a considérablement élargi le paradigme de la diffusion des connaissances humaines...
il y a 5 mois
01.3K
PDF-Extract-Kit:提取复杂结构PDF内容的开源工具

PDF-Extract-Kit : Extraire la structure complexe du contenu PDF de l'outil open-source

Introduction complète PDF-Extract-Kit est un projet open source développé par l'équipe d'OpenDataLab, qui se concentre sur l'extraction efficace de contenu de haute qualité à partir de documents PDF complexes et diversifiés. Il intègre une technologie avancée d'analyse de documents pour prendre en charge la détection de la mise en page, la reconnaissance des formules ...
Il y a 6 mois
01.7K
Crawl4LLM:为LLM预训练提供的高效网页爬取工具

Crawl4LLM : un outil efficace d'exploration du Web pour le pré-entraînement LLM

Introduction détaillée Crawl4LLM est un projet open source développé conjointement par l'université Tsinghua et l'université Carnegie Mellon, qui se concentre sur l'optimisation de l'efficacité de l'exploration du web pour le pré-entraînement des grands modèles (LLM). Il réduit considérablement l'inefficacité du crawling en sélectionnant intelligemment des données web de haute qualité, affirmant pouvoir...
Il y a 6 mois
01.1K
CodeWeaver:将代码结构和内容自动生成Markdown文档

CodeWeaver : génère automatiquement des documents Markdown à partir de la structure et du contenu du code.

Introduction générale CodeWeaver est un outil en ligne de commande conçu pour tisser des bibliothèques de code dans des documents Markdown uniques et faciles à naviguer. Il génère une représentation structurée de la hiérarchie des fichiers d'un projet en analysant récursivement les répertoires et en intégrant le contenu de chaque fichier dans des blocs de code. Cet outil...
Il y a 6 mois
01.1K
Instructor:简化大语言模型结构化输出工作流的Python库

Instructeur : une bibliothèque Python pour simplifier les flux de production structurés pour les grands modèles de langage

Introduction générale Instructor est une bibliothèque Python populaire conçue pour traiter les résultats structurés des grands modèles de langage (LLM). Construite sur Pydantic, elle fournit une API simple, transparente et conviviale pour gérer les données...
Il y a 6 mois
01.4K
zChunk:基于Llama-70B的通用语义分块策略

zChunk : une stratégie générique de découpage sémantique basée sur Llama-70B

Introduction zChunk est une nouvelle stratégie de découpage développée par ZeroEntropy qui vise à fournir une solution pour le découpage sémantique générique. La stratégie est basée sur le modèle Llama-70B, qui optimise le processus de découpage des documents en demandant la génération de morceaux, garantissant ainsi que la recherche d'informations est maintenue à un niveau élevé....
Il y a 6 mois
01.4K
Pulse:文档处理与数据提取的商业解决方案

Pulse : Solutions professionnelles pour le traitement de documents et l'extraction de données

Introduction complète Pulse est une plateforme intelligente axée sur le traitement de documents et l'extraction de données, conçue pour aider les entreprises et les développeurs à analyser et à traiter efficacement un large éventail de documents complexes. Grâce à sa technologie avancée de vision par ordinateur et de traitement multimodal, Pulse est capable d'extraire avec précision des données à partir de textes, d'images, de tableaux et...
Il y a 6 mois
01.2K
Rowfill:批量提取文档结构化信息并自动化分析

Rowfill : Extraction par lots d'informations structurées à partir de documents et analyse automatisée

Introduction générale Rowfill est une plateforme de traitement de documents open source conçue pour les travailleurs du savoir. Elle utilise des techniques avancées d'intelligence artificielle pour extraire, analyser et traiter des données à partir de documents complexes, d'images et de PDF.
Il y a 6 mois
01.3K
Repomix:打包代码库为一个文本文件以便大模型检索

Repomix : emballage de la base de code dans un fichier texte pour la récupération de modèles de grande taille

Introduction générale Repomix (anciennement connu sous le nom de Repopack) est un outil open source conçu pour empaqueter une base de code entière dans un fichier unique, adapté à l'IA. Cet outil permet aux développeurs de mettre facilement leur base de code à la disposition de grands modèles de langage (tels que Claude, Chat...
Il y a 7 mois
02.1K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek : lecture des fichiers texte du dépôt git et découpage rapide pour les modèles de grande taille

Introduction générale Yek est un outil rapide basé sur Rust pour lire des fichiers texte à partir de dépôts ou de répertoires, les découper et les sérialiser pour les utiliser dans de grands modèles de langage (LLM). L'outil utilise la règle .gitignore par défaut pour ignorer les fichiers inutiles, et utilise...
Il y a 7 mois
02K
UnDatas.IO:精准解析各类非结构化数据的API服务(付费)

UnDatas.IO : service API pour l'analyse précise de divers types de données non structurées (payant)

Introduction complète UnDatas.IO est une plateforme axée sur l'analyse et le traitement des données non structurées. Elle utilise une technologie avancée pour reconnaître automatiquement la mise en page des documents et classer les tableaux, les images, les formules et le texte, ce qui simplifie grandement le processus de traitement des données. La plateforme permet non seulement de gagner beaucoup de temps dans le tri des données...
Il y a 7 mois
01.4K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox : PDF, DOCX, conversion d'images en Markdown, modèle visuel OCR de haute précision

Introduction générale Zerox est un projet open source conçu pour convertir des documents PDF, DOCX, des images et d'autres documents au format Markdown par le biais de modèles visuels. Le projet est développé par l'équipe getomni-ai et fournit une solution OCR (Optical Character Recognition) simple et efficace....
Il y a 7 mois
01.6K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash : Mise en œuvre rapide de la déduplication sémantique du texte pour améliorer l'efficacité du nettoyage des données

Introduction complète SemHash est un outil léger et flexible pour dédupliquer des ensembles de données par similarité sémantique. Il combine la génération rapide d'embedding de Model2Vec avec la recherche de similarité ANN (approximate nearest neighbour) de Vicinity....
Il y a 7 mois
01.6K
Parseur:自动化提取文档数据,各类文档中提取结构化文本

Parseur : extraction automatisée de données documentaires, extraction de texte structuré à partir de divers documents

Description générale Parseur est un logiciel d'extraction de données conçu pour aider les utilisateurs à extraire automatiquement des données textuelles à partir de PDF, d'emails et d'autres documents. Avec Parseur, les utilisateurs peuvent facilement convertir les données non structurées en données structurées et les envoyer à diverses applications...
Il y a 7 mois
01.7K
AI Functions:将输入内容转换为结构化输出的(API)服务

Fonctions d'IA : un service (API) pour convertir le contenu d'entrée en sorties structurées.

Introduction complète Weco AI Functions est une plateforme puissante conçue pour aider les utilisateurs à créer et à déployer rapidement des fonctions d'IA. En décrivant simplement les tâches, les utilisateurs peuvent générer des modèles de sortie structurés avec des tests A/B et des contrôles d'observation. La plateforme prend en charge le prototypage sans code...
Il y a 6 mois
01.5K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest : analyse de documents au format complexe, extraction de données multimodales en métadonnées et en texte

Introduction complète NV Ingest (NVIDIA Ingest) est une suite de microservices en accès anticipé conçus pour analyser des centaines de milliers de PDF non structurés complexes et désordonnés et d'autres documents d'entreprise. Il peut convertir ces documents en métadonnées et en texte pour les intégrer dans des...
Il y a 7 mois
02K
Trellis:转换非结构文档为结构化EXCEL格式数据,PDF快速转表格(付费)

Trellis : convertir des documents non structurés en données structurées au format EXCEL, PDF fast to form (payant)

Introduction générale Trellis est une plateforme de données axée sur la conversion de sources de données non structurées complexes en formats SQL structurés. Grâce à son puissant moteur d'IA, Trellis est capable de traiter un large éventail de sources de données telles que des documents financiers, des appels vocaux et des courriels, et de les convertir en données utilisables et...
Il y a 7 mois
01.4K
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR : Extraction de texte à partir d'images à l'aide de modèles visuels dans Ollama

Introduction Ollama OCR est une puissante boîte à outils de reconnaissance optique de caractères (OCR) qui utilise le modèle de langage visuel de pointe fourni par la plate-forme Ollama pour extraire du texte à partir d'images. Le projet est disponible sous la forme d'un paquetage Python et fournit des...
Il y a 7 mois
02.9K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

Générateur llms.txt : capturez rapidement le contenu d'un site web et générez des ensembles de données textuelles de formation LLM.

Introduction complète llmstxt-generator est un outil professionnel d'extraction et d'intégration de contenu web dédié à la préparation d'ensembles de données textuelles de haute qualité pour l'entraînement et l'inférence dans le cadre de la modélisation du langage étendu (LLM). L'outil a été développé par Mendable AI en utilisant @firec...
Il y a 7 mois
01.9K
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

Doc2X : outils de reconnaissance et de conversion de formules d'images de documents, prise en charge de la conversion multiformat et de la traduction de haute précision

Introduction Doc2X est un puissant outil de reconnaissance et de conversion de formules d'images de documents, qui s'engage à fournir des solutions de traitement de documents efficaces et intelligentes. Qu'il s'agisse d'un travail de recherche universitaire, d'un manuel, d'un document d'entreprise ou d'un rapport financier, Doc2X peut identifier avec précision les...
Il y a 6 mois
01.8K
ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

ExtractThinker : extraction et catégorisation de documents en données structurées pour optimiser le processus de traitement des documents

Introduction ExtractThinker est un outil flexible d'intelligence documentaire qui extrait et classifie des données structurées à partir de documents en utilisant de grands modèles de langage (LLM), fournissant un flux de travail de traitement de documents transparent de type ORM. Il prend en charge une variété de chargeurs de documents, y compris Tess...
Il y a 7 mois
01.7K
HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理

HtmlRAG : Building an Efficient HTML Retrieval Enhanced Generation System, Optimising HTML Document Retrieval and Processing in RAG Systems (en anglais)

Introduction complète HtmlRAG est un projet open source innovant visant à améliorer le traitement des documents HTML dans les systèmes RAG (Retrieval Augmented Generation). Le projet présente une nouvelle approche qui soutient que l'utilisation du format HTML dans les systèmes RAG est plus efficace que le texte brut. Le projet contient un ...
Il y a 7 mois
01.8K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

ScrapeGraphAI : un seul mot pour l'exploration du web, pas besoin d'écrire des règles outil intelligent d'extraction de contenu web

Introduction complète ScrapeGraphAI est une bibliothèque innovante de scraping web en Python qui combine astucieusement le Large Language Modelling (LLM) et la Direct Graph Logic pour créer des pipelines de scraping pour les sites web et les documents locaux. Ce qui rend cet outil unique est son niveau parfait de simplicité et de puissance...
Il y a 7 mois
01.5K
Vision Parse : Conversion intelligente de documents PDF au format Markdown à l'aide de modèles de langage visuel

Vision Parse : Conversion intelligente de documents PDF au format Markdown à l'aide de modèles de langage visuel

Introduction Vision Parse est un outil révolutionnaire de traitement de documents, il combine astucieusement la technologie la plus avancée des modèles de langage visuel (Vision Language Models), la capacité de convertir intelligemment des documents PDF en format Markdown de haute qualité...
Il y a 8 mois
01.8K
Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Outlines : générer un texte structuré via des expressions régulières, JSON ou des modèles pydantiques

Introduction générale Outlines est une bibliothèque open source développée par dottxt-ai pour améliorer l'application des grands modèles de langage (LLM) par la génération de textes structurés. La bibliothèque prend en charge une variété d'intégrations de modèles, y compris OpenAI, les transformateurs...
Il y a 6 mois
01.7K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown : Outil de conversion intelligent de Microsoft Document pour convertir divers fichiers au format Markdown

Introduction générale MarkItDown est un outil Python développé par Microsoft et conçu pour convertir divers fichiers et documents bureautiques au format Markdown. L'outil prend en charge un large éventail de types de fichiers, notamment PDF, PowerPoint, Word, Excel, diagrammes...
Il y a 8 mois
02.4K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr : un service tout-en-un qui utilise des modèles visuels pour l'ingestion de documents et le découpage intelligent basé sur la hiérarchie des paragraphes du texte.

Introduction générale Chunkr est une API auto-hébergée dédiée à la conversion de fichiers PDF, PPTX, DOCX et Excel en données utilisables dans RAG (Retrieval Augmented Generation) et LLM (Large Language Modelling). Le projet a été développé par Lumina...
Il y a 8 mois
02.6K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本

GitIngest : Convertir rapidement les dépôts de code Github en texte adapté à la compréhension du LLM

Introduction générale GitIngest est un outil open source conçu pour transformer les dépôts de code GitHub en texte adapté aux indices du Large Language Model (LLM). Avec une simple opération, les utilisateurs peuvent extraire et formater le contenu de n'importe quel dépôt GitHub pour qu'il corresponde au ...
Il y a 8 mois
02.6K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse : analyse chaque type de document en données disponibles en LLM, en préservant toutes les informations du document, telles que les tableaux et les images, dans leur intégralité.

Introduction générale MegaParse est un outil d'analyse de documents puissant et polyvalent, conçu pour optimiser le traitement des données pour le Large Language Model (LLM). Que vous travailliez avec du texte, des PDF, des présentations PowerPoint ou des documents Word, MegaParse...
Il y a 8 mois
02.1K
Trieve:提供搜索、推荐和分析的全方位RAG云基础设施

Trieve : une infrastructure en nuage RAG offrant un service complet de recherche, de recommandations et d'analyse.

Introduction générale Trieve est une infrastructure globale développée par Devflow, Inc. et conçue pour la recherche, les recommandations, la RAG (Retrieval Augmented Generation) et l'analyse. La plateforme est servie par une API et prend en charge l'auto-hébergement pour AWS, GCP, K...
Il y a 8 mois
01.5K
pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版

pdf2htmlEX : conversion sans perte de PDF en HTML, en conservant le formatage du texte, adapté aux travaux universitaires et à la composition de magazines.

Introduction pdf2htmlEX est un outil open source conçu pour convertir les fichiers PDF au format HTML , en analysant le contenu du fichier PDF et en utilisant HTML + CSS pour restaurer avec précision son effet visuel , le document PDF sera converti en un navigateur ....
Il y a 9 mois
01.7K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun : une plateforme open source, sans code, qui explore automatiquement les données web et les convertit en API ou en feuilles de calcul.

Introduction complète Maxun est une plateforme open source d'extraction de données web sans code qui permet aux utilisateurs de former des robots en quelques minutes pour explorer automatiquement les données web et les convertir en API ou en feuilles de calcul. La plateforme prend en charge la pagination et le défilement, s'adapte aux changements de mise en page des sites web, fournit de puissantes...
Il y a 7 mois
01.9K
OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

OmniParse : extrait des données non structurées de documents/multimédias et les analyse en données structurées.

Introduction générale OmniParse est une puissante plateforme d'analyse et d'optimisation de données conçue pour transformer toutes les données non structurées en données structurées, exploitables et optimisées pour le cadre GenAI (Generative Artificial Intelligence). Que vous travailliez avec des documents, des tableaux, des images, des vidéos, des fichiers audio ou...
Il y a 9 mois
01.8K
Parsio:自动从 PDF、电子邮件和其他文档中提取关键结构化数据

Parsio : Extraction automatique de données structurées clés à partir de PDF, d'e-mails et d'autres documents

Description générale Parsio est un outil d'extraction de données de documents et d'e-mails basé sur l'IA qui extrait automatiquement des données structurées à partir de PDF, d'e-mails et d'autres documents. La plateforme fournit un puissant analyseur de PDF et une fonctionnalité OCR et prend en charge un large éventail de types de documents, y compris...
Il y a 9 mois
01.9K
TextIn:通用文档转换,PDF转Markdown工具

TextIn : Conversion universelle de documents, outil de conversion de PDF en Markdown

Introduction TextIn est un outil professionnel de conversion de PDF en Markdown conçu pour aider les utilisateurs à convertir efficacement des documents PDF au format Markdown. L'outil prend en charge une grande variété de formats de fichiers, il est facile à utiliser, la vitesse de conversion est rapide, le format et le contenu du PDF d'origine sont conservés...
Il y a 9 mois
01.7K
文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

API d'extraction de texte (text-extract-api) : extraction visuelle d'informations textuelles, outil d'extraction de PDF anonymes

Introduction complète L'API d'extraction de texte (text-extract-api) est un outil puissant conçu pour extraire et analyser le contenu d'une variété de formats de documents (par exemple PDF, Word, PPTX, etc.). L'API utilise la technologie de pointe de la reconnaissance optique de caractères (OCR) et Ol...
Il y a 7 mois
02K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab : modèle d'IA dédié à la reconnaissance OCR, PDF to Markdown (open source/API)

Introduction complète Datalab propose une gamme de modèles d'IA avancés axés sur l'OCR, l'analyse de la mise en page, la conversion de PDF en Markdown et bien plus encore. Ces modèles sont non seulement très performants, mais aussi faciles à utiliser et open source. Les modèles Marker de la plateforme peuvent rapidement et précisément...
Il y a 9 mois
02K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU : extraction de documents PDF et conversion au format Markdown multimodal, prise en charge de la numérisation OCR des livres électroniques

Introduction complète MinerU est un outil d'extraction de données open source développé par l'équipe OpenDataLab du Shanghai Artificial Intelligence Laboratory, qui se concentre sur l'extraction efficace du contenu de documents PDF complexes, de pages web et de livres électroniques. Il est capable de prendre des PDF multimodaux contenant des images, des formules, des tableaux et d'autres éléments...
Il y a 10 mois
02.5K
Marker:快速将PDF转换为Markdown的开源工具

Marker : conversion rapide de PDF en Markdown outils open source

Introduction générale Marker est un outil de traitement de documents basé sur l'apprentissage profond, conçu pour convertir rapidement et précisément des fichiers PDF au format Markdown. Il prend en charge un large éventail de types de documents et est particulièrement optimisé pour la conversion de livres et d'articles scientifiques. Il prend en charge un large éventail de types de documents et est particulièrement optimisé pour la conversion de livres et d'articles scientifiques....
il y a 5 mois
02.6K
Mathpix:PDF和图片文档结构化转换软件,支持多终端

Mathpix : logiciel de conversion structurée de documents PDF et d'images, prise en charge du multiterminal

Description générale Mathpix est un puissant outil d'automatisation de documents piloté par l'IA et conçu pour les chercheurs, les développeurs et les entreprises. Il convertit rapidement et avec précision les PDF et les images en texte consultable, exportable et lisible par machine.
Il y a 11 mois
02.4K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

Non structuré : outils open source de prétraitement de documents non structurés, outils de traitement de données non structurées

Introduction complète Unstructured-IO fournit un ensemble de composants open source pour le traitement et le prétraitement d'images et de documents textuels tels que PDF, HTML, documents Word, etc. Son objectif principal est de simplifier et d'optimiser les flux de traitement des données, en particulier pour les grands modèles de langage (LL...
Il y a 11 mois
02K