🚀邀请体验：中国首家 AI IDE 智能编程软件 Trae 中文版下载，不限量使用 DeepSeek-R1 和 Doubao-pro!

共 66 篇文章

标签：文档提取与清洗第2页

Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式

综合介绍 Markdownify MCP Server 是一个基于 Model Context Protocol（模型上下文协议）的开源工具，托管于 GitHub，由开发者 Zach Caceres 创建。它专注于将多种文件类型（如 PDF、图像、音频、办公文档等）以...

2025-02-22AI工具 AI开源项目 MCP服务文档提取与清洗

CodeWeaver：将代码结构和内容自动生成Markdown文档

综合介绍 CodeWeaver 是一个命令行工具，旨在将代码库编织成单个、易于浏览的Markdown文档。它通过递归扫描目录，生成项目文件层次结构的结构化表示，并在代码块中嵌入每个文件的内容。这款工具的设计目标是简化...

2025-02-16AI工具 AI开源项目文档提取与清洗

Trae中文版首发邀请下载：注册后不限量使用DeepSeek-R1！

开启 Builder 智能编程模式，无限量使用 DeepSeek-R1 和 DeepSeek-V3 ，对比海外版体验更加流畅。只需输入中文指令，不懂编程的小白也可以零门槛编写自己的应用。

2025-04-13

Kreuzberg：从任何文档中提取文本的开源工具

综合介绍 Kreuzberg是一个用于简化PDF文件文本提取的库，旨在提供简单、无忧的文本提取解决方案。该库特别适合需要进行文本提取的RAG（Retrieval-Augmented Generation）服务。Kreuzberg支持本地运行，易于控制且...

2025-02-15AI工具 AI开源项目文档提取与清洗

Instructor：简化大语言模型结构化输出工作流的Python库

综合介绍 Instructor 是一个流行的 Python 库，专为处理大语言模型（LLMs）的结构化输出而设计。它基于 Pydantic 构建，提供了一个简单、透明且用户友好的 API，用于管理数据验证、重试和流式响应。Instructor 每...

2025-02-10AI工具 AI开源项目文档提取与清洗

zChunk：基于Llama-70B的通用语义分块策略

综合介绍 zChunk是由ZeroEntropy开发的一种新型分块策略，旨在为通用语义分块提供解决方案。该策略基于Llama-70B模型，通过提示生成分块，优化了文档的分块过程，确保在信息检索时保持高信噪比。zChunk特别适用于...

2025-02-10AI工具 AI开源项目文档提取与清洗

Pulse：文档处理与数据提取的商业解决方案

综合介绍 Pulse 是一个专注于文档处理和数据提取的智能平台，旨在帮助企业和开发者高效地解析和处理各种复杂文档。通过其先进的计算机视觉和多模态处理技术，Pulse 能够准确地从文本、图像、表格等多种格式的文档...

2025-02-09AI工具文档提取与清洗

Rowfill：批量提取文档结构化信息并自动化分析

综合介绍 Rowfill 是一个开源的文档处理平台，专为知识工作者设计。它利用先进的人工智能技术，从复杂的文档、图像和PDF中提取、分析和处理数据。Rowfill 支持本地大语言模型（LLM）和OpenAI视觉模型，确保数据隐...

2025-02-06AI工具 AI开源项目 AI数据分析文档提取与清洗

PPTX2MD：将PPTX文件转换为Markdown的专用工具

综合介绍 PPTX2MD是一个开源工具，旨在将PowerPoint的PPTX文件转换为Markdown格式。该工具由GitHub用户ssine开发，支持保留标题、列表、文本格式（如粗体、斜体、颜色和超链接）、图片和表格等多种格式。PPTX2MD...

2025-02-03AI工具 AI开源项目文档提取与清洗

Repomix：打包代码库为一个文本文件以便大模型检索

综合介绍 Repomix（前称Repopack）是一款开源工具，专门用于将整个代码库打包成一个单一的、AI友好的文件。这个工具可以让开发者轻松地将他们的代码库提供给大语言模型（如Claude、ChatGPT和Gemini）进行分析和处...

2025-01-21AI工具 AI开源项目文档提取与清洗

Yek：读取git仓库文本文件并快速分块，以供大模型使用

综合介绍 Yek 是一个基于 Rust 的快速工具，用于读取存储库或目录中的文本文件，将其分块并序列化以供大型语言模型（LLM）使用。该工具默认使用 .gitignore 规则跳过不需要的文件，并利用 Git 历史推断重要文件。...

2025-01-21AI工具 AI开源项目文档提取与清洗

LlamaParse：Llamaindex推出的高品质解析文档，提取数据服务（每日免费提取1000页）

综合介绍 LlamaParse 是一个强大的文档解析工具，能够处理复杂的文档如 PDF、PowerPoint、Word 文档和电子表格，并将其转换为结构化数据。LlamaParse 提供多种使用方式，包括独立的 REST API、Python 包、TypeScr...

2025-01-20AI工具 AI开放服务文档提取与清洗

UnDatas.IO：精准解析各类非结构化数据的API服务（付费）

综合介绍 UnDatas.IO 是一个专注于解析和处理非结构化数据的平台。它利用先进的技术，自动识别文档布局，分类表格、图像、公式和文本，极大地简化了数据处理流程。该平台不仅能够节省大量的数据整理时间，还能帮...

2025-01-20AI工具 AI开放服务文档提取与清洗

Zerox：PDF、DOCX、图像转换为Markdown，视觉模型高精度OCR

综合介绍 Zerox是一个开源项目，旨在通过视觉模型将PDF、DOCX、图像等文件转换为Markdown格式。该项目由getomni-ai团队开发，提供了简单高效的OCR（光学字符识别）解决方案。Zerox支持Node和Python两种编程语言，...

2025-01-19AI工具 AI开源项目文档提取与清洗

SemHash：快速实现语义文本去重，提升数据清理效率

综合介绍 SemHash 是一个轻量级且灵活的工具，用于通过语义相似性来去重数据集。它结合了 Model2Vec 的快速嵌入生成和 Vicinity 的高效 ANN（近似最近邻）相似性搜索。SemHash 支持单数据集去重（例如，清理训练...

2025-01-17AI工具 AI开源项目文档提取与清洗

Parseur：自动化提取文档数据，各类文档中提取结构化文本

综合介绍 Parseur是一款领先的AI数据提取软件，旨在帮助用户从PDF、电子邮件和其他文档中自动提取文本数据。通过Parseur，用户可以轻松地将非结构化数据转换为结构化数据，并将其发送到各种应用程序中。该软件广...

2025-01-17AI工具文档提取与清洗

AI Functions：将输入内容转换为结构化输出的（API）服务

综合介绍 Weco AI Functions 是一个强大的平台，旨在帮助用户快速构建和部署AI功能。通过简单的描述任务，用户可以生成结构化的输出模式，并进行A/B测试和观察性监控。该平台支持无代码原型设计，使非技术用户也...

2025-01-16AI工具 AI开放服务文档提取与清洗

NV Ingest：解析复杂格式文档，提取多模态数据为元数据和文本

综合介绍 NV Ingest（NVIDIA Ingest）是一套早期访问的微服务，专为解析数十万复杂、混乱的非结构化 PDF 和其他企业文档而设计。它能够将这些文档转换为元数据和文本，以便嵌入到检索系统中。NVIDIA Ingest 支持...

2025-01-14AI工具 AI开源项目文档提取与清洗

Trellis：转换非结构文档为结构化EXCEL格式数据，PDF快速转表格（付费）

综合介绍 Trellis是一款专注于将复杂的非结构化数据源转换为结构化SQL格式的数据平台。通过其强大的AI引擎，Trellis能够处理金融文档、语音通话和电子邮件等多种数据源，并将其转换为可供数据和操作团队使用的SQL...

2025-01-13AI工具文档提取与清洗

Ollama OCR：使用Ollama中视觉模型提取图像中的文本

综合介绍 Ollama OCR是一个强大的光学字符识别(OCR)工具包，它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用，也提供了用户友好的Streamlit网页应用程序界面。它支持多...

2025-01-10AI工具 AI开源项目 OCR 文档提取与清洗

上一页
1
2
3
4
下一页
共 4 页

标签：文档提取与清洗第2页

Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式

CodeWeaver：将代码结构和内容自动生成Markdown文档

Trae中文版首发邀请下载：注册后不限量使用DeepSeek-R1！

Kreuzberg：从任何文档中提取文本的开源工具

Instructor：简化大语言模型结构化输出工作流的Python库

zChunk：基于Llama-70B的通用语义分块策略

Pulse：文档处理与数据提取的商业解决方案

Rowfill：批量提取文档结构化信息并自动化分析

PPTX2MD：将PPTX文件转换为Markdown的专用工具

Repomix：打包代码库为一个文本文件以便大模型检索

Yek：读取git仓库文本文件并快速分块，以供大模型使用

LlamaParse：Llamaindex推出的高品质解析文档，提取数据服务（每日免费提取1000页）

UnDatas.IO：精准解析各类非结构化数据的API服务（付费）

Zerox：PDF、DOCX、图像转换为Markdown，视觉模型高精度OCR

SemHash：快速实现语义文本去重，提升数据清理效率

Parseur：自动化提取文档数据，各类文档中提取结构化文本

AI Functions：将输入内容转换为结构化输出的（API）服务

NV Ingest：解析复杂格式文档，提取多模态数据为元数据和文本

Trellis：转换非结构文档为结构化EXCEL格式数据，PDF快速转表格（付费）

Ollama OCR：使用Ollama中视觉模型提取图像中的文本

找不到AI工具？在这试试！

FLUX.1图像生成器（支持中文输入）

近期AI热点

AI工具推荐

AI工具分类

标签：文档提取与清洗 第2页

找不到AI工具？在这试试！

FLUX.1图像生成器（支持中文输入）

近期AI热点

AI工具推荐

AI工具分类

标签：文档提取与清洗第2页