Извлечение и очистка документов

Всего 67 статей
расставлять по порядку
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: извлечение и преобразование PDF-документов в мультимодальный формат Markdown, поддержка OCR-сканирования электронных книг

Всеобъемлющее введение MinerU - это инструмент извлечения данных с открытым исходным кодом, разработанный командой OpenDataLab в Шанхайской лаборатории искусственного интеллекта и предназначенный для эффективного извлечения содержимого из сложных PDF-документов, веб-страниц и электронных книг. Он способен извлекать мультимодальные PDF-файлы, содержащие изображения, формулы, таблицы и другие элементы...
11 месяцев назад
018K
Marker:快速将PDF转换为Markdown的开源工具

Marker: быстрое преобразование PDF в Markdown с открытым исходным кодом

Общее представление Marker - это инструмент для обработки документов на основе глубокого обучения, предназначенный для быстрого и точного преобразования PDF-файлов в формат Markdown. Он поддерживает широкий спектр типов документов и особенно оптимизирован для преобразования книг и научных работ.Marker способен удалять заголовки...
6 месяцев назад
015.8K
Reader API:网页内容提取工具,HTML转换为Markdown格式

API Reader: инструмент для извлечения веб-контента, преобразование HTML в Markdown

Общее представление Проект Jina AI's Reader - это инструмент с открытым исходным кодом (Reader open source address), который принимает любой URL, добавляя префикс https://r.jina.ai/转换成适合大型语言模型 (Large Languag...
12 месяцев назад
015.3K
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog: инструмент с открытым исходным кодом для извлечения и запроса журналов чатов WeChat.

Общее представление Chatlog - это инструмент с открытым исходным кодом, предназначенный для извлечения и запроса журналов чатов из локальной базы данных WeChat. Он поддерживает WeChat версий 3.x и 4.0, охватывая системы Windows и macOS. Пользователи могут использовать командную строку, интерфейс терминала или H...
5 месяцев назад
015K
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: извлечение текста из изображений с помощью визуальных моделей в Ollama

Введение Ollama OCR - это мощный набор инструментов для оптического распознавания символов (OCR), который использует современную визуальную языковую модель, предоставляемую платформой Ollama, для извлечения текста из изображений. Проект доступен как в виде пакета на языке Python, так и в виде удобного Strea...
8 месяцев назад
013.3K
PDF-Extract-Kit:提取复杂结构PDF内容的开源工具

PDF-Extract-Kit: извлечение сложной структуры содержимого PDF с помощью инструмента с открытым исходным кодом.

Всеобъемлющее введение PDF-Extract-Kit - это проект с открытым исходным кодом, разработанный командой OpenDataLab, ориентированный на эффективное извлечение высококачественного контента из сложных и разнообразных PDF-документов. Он интегрирует передовую технологию разбора документов для поддержки обнаружения макета, распознавания формул ...
6 месяцев назад
012.6K
Mathpix:PDF和图片文档结构化转换软件,支持多终端

Mathpix: программа для структурированного преобразования документов PDF и изображений, поддержка многотерминального режима

Общее описание Mathpix - это мощный инструмент для автоматизации работы с документами, основанный на искусственном интеллекте и предназначенный для исследователей, разработчиков и предприятий. Он быстро и точно преобразует PDF-файлы и изображения в текст, пригодный для поиска, экспорта и машинного чтения.Mathpix предлагает широкий спектр функций...
12 месяцев назад
012.5K
Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Outlines: генерирует структурированный текст с помощью регулярных выражений, JSON или моделей Pydantic.

Общее представление Outlines - это библиотека с открытым исходным кодом, разработанная dottxt-ai для расширения возможностей применения больших языковых моделей (LLM) путем создания структурированного текста. Библиотека поддерживает различные интеграции моделей, включая OpenAI, трансформаторы...
7 месяцев назад
012.2K
Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

Docling: поддержка различных форматов, разбор и экспорт документов в формате Markdown и JSON, поддержка OCR в формате PDF.

Всеобъемлющее представление Docling - это мощный инструмент для разбора и экспорта документов, поддерживающий широкий спектр форматов, включая PDF, DOCX, PPTX, XLSX, Image, HTML, AsciiDoc и Markdown...
9 месяцев назад
012.2K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox: PDF, DOCX, преобразование изображений в Markdown, высокоточное распознавание визуальных моделей

Общее представление Zerox - это проект с открытым исходным кодом, предназначенный для преобразования PDF, DOCX, изображений и других документов в формат Markdown с помощью визуальных моделей. Проект разработан командой getomni-ai и представляет собой простое и эффективное решение OCR (Optical Character Recognition).Ze...
7 месяцев назад
011.4K
Repomix:打包代码库为一个文本文件以便大模型检索

Repomix: упаковка кодовой базы в текстовый файл для поиска больших моделей

Общее введение Repomix (ранее известный как Repopack) - это инструмент с открытым исходным кодом, предназначенный для упаковки всей кодовой базы в один файл, удобный для AI. Этот инструмент позволяет разработчикам легко сделать свою кодовую базу доступной для больших языковых моделей (таких как Claude, Chat...
7 месяцев назад
011.2K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本

GitIngest: быстрое преобразование репозиториев кода Github в текст, пригодный для понимания LLM

Общие сведения Введение GitIngest - это инструмент с открытым исходным кодом, предназначенный для преобразования репозиториев кода GitHub в текст, подходящий для подсказок Large Language Model (LLM). С помощью простой операции пользователи могут извлечь и отформатировать содержимое любого репозитория GitHub, чтобы оно соответствовало LLM ...
9 месяцев назад
011K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab: специализированная модель ИИ для распознавания OCR, преобразование PDF в Markdown (открытый исходный код/API).

Всеобъемлющее представление Datalab предлагает ряд продвинутых моделей искусственного интеллекта, ориентированных на OCR, анализ макетов, преобразование PDF в Markdown и многое другое. Эти модели не только высокопроизводительны, но и просты в использовании и имеют открытый исходный код. Модели Marker на платформе могут быстро и точно...
10 месяцев назад
010.4K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: универсальный сервис, использующий визуальные модели для сбора документов и интеллектуальной группировки на основе иерархии абзацев текста.

Общее введение Chunkr - это самостоятельный API, предназначенный для преобразования файлов PDF, PPTX, DOCX и Excel в данные, пригодные для использования в RAG (Retrieval Augmented Generation) и LLM (Large Language Modelling). Проект был разработан компанией Lumina...
9 месяцев назад
010.3K
Chonkie:轻量级RAG文本切块库

Chonkie: легкая библиотека для разбивки текста на части в RAG

Всеобъемлющее введение Chonkie - это легкая и эффективная библиотека RAG (Retrieval-Augmented Generation) для разбивки текста на куски, призванная помочь разработчикам быстро и легко разбивать текст на куски. Библиотека поддерживает различные методы разбивки, включая ...
7 месяцев назад
010.2K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun: платформа с открытым исходным кодом, которая автоматически просматривает веб-данные и преобразует их в API или электронные таблицы.

Всеобъемлющее введение Maxun - это платформа для извлечения веб-данных с открытым исходным кодом, которая позволяет пользователям за считанные минуты обучить роботов автоматическому сканированию веб-данных и преобразованию их в API или электронные таблицы. Платформа поддерживает пагинацию и скроллинг, адаптируется к изменениям в макете сайта, предоставляет мощные...
8 месяцев назад
010.1K
HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理

HtmlRAG: создание эффективной системы расширенного поиска HTML, оптимизация поиска и обработки HTML-документов в системах RAG

Всеобъемлющее введение HtmlRAG - это инновационный проект с открытым исходным кодом, направленный на улучшение обработки HTML-документов в системах Retrieval Augmented Generation (RAG). Проект представляет новый подход, который доказывает, что использование HTML-форматирования в системах RAG более эффективно, чем обычного текста. Проект содержит полный ...
8 месяцев назад
010K
Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元

Mistral OCR: 94,89% общая точность, 1000 страниц/30 секунд, всего $1

За долгую историю человеческой цивилизации каждый скачок в способах получения и обработки информации вносил глубокий вклад в социальный прогресс. От древних иероглифов до переносного папируса, а затем появления печатного станка и сегодняшней цифровой волны - каждая технологическая инновация значительно расширяла парадигму распространения человеческих знаний...
6 месяцев назад
010K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

Неструктурированные: препроцессинг неструктурированных документов с открытым исходным кодом, инструменты обработки неструктурированных данных

Всеобъемлющее введение Unstructured-IO представляет собой набор компонентов с открытым исходным кодом для обработки и предварительной обработки изображений и текстовых документов, таких как PDF, HTML, документы Word и т. д. Его основная цель - упростить и оптимизировать рабочие процессы обработки данных, особенно для больших языковых моделей (LL...
12 месяцев назад
09.9K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown: Инструмент интеллектуального преобразования документов Microsoft для конвертации различных файлов в формат Markdown

Общее представление MarkItDown - это инструмент на языке Python, разработанный компанией Microsoft и предназначенный для преобразования различных файлов и офисных документов в формат Markdown. Инструмент поддерживает широкий спектр типов файлов, включая PDF, PowerPoint, Word, Excel, диаграммы...
8 месяцев назад
09.9K
PDF Craft:PDF扫描文件转Markdown的开源工具

PDF Craft: преобразование отсканированных документов PDF в Markdown с открытым исходным кодом

Общее представление PDF Craft - это инструмент с открытым исходным кодом, предназначенный для сканирования PDF-файлов книг и преобразования их в формат Markdown. Он был разработан oomol-lab и размещен на GitHub для пользователей, которым нравится организовывать свои электронные книги. Инструмент работает через ...
5 месяцев назад
09.6K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

Flying Paddle PP-TableMagic: структурированное извлечение информации для сложных таблиц

Целью распознавания таблиц является разбор таблиц на изображениях, точная идентификация структуры таблиц и расположения ячеек, а также приведение их к структурированным табличным форматам (например, HTML). В современный информационный век большое количество важных табличных данных по-прежнему существует в неструктурированном виде (например, отсканированные документы с изображениями статистических таблиц...).
6 месяцев назад
09.6K
Kreuzberg:从任何文档中提取文本的开源工具

Kreuzberg: инструмент с открытым исходным кодом для извлечения текста из любого документа

Общее представление Kreuzberg - это библиотека для упрощения извлечения текста из PDF-файлов, разработанная для обеспечения простого и удобного решения для извлечения текста. Библиотека особенно подходит для RAG (Retrieval-Augmented Generatio...
6 месяцев назад
09.6K
Parseur:自动化提取文档数据,各类文档中提取结构化文本

Parseur: автоматическое извлечение данных из документов, извлечение структурированного текста из всех типов документов

Общее описание Parseur - это ведущее программное обеспечение для извлечения данных с искусственным интеллектом, предназначенное для автоматического извлечения текстовых данных из PDF-файлов, электронных писем и других документов. С помощью Parseur пользователи могут легко преобразовывать неструктурированные данные в структурированные и отправлять их в различные приложения...
7 месяцев назад
09.6K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

Генератор llms.txt: быстрый захват содержимого веб-сайта и создание наборов учебных текстовых данных LLM.

Всеобъемлющее введение llmstxt-generator - это профессиональный инструмент для извлечения и интеграции веб-контента, предназначенный для подготовки высококачественных текстовых наборов данных для обучения и выводов в большом языковом моделировании (LLM). Инструмент был разработан компанией Mendable AI с использованием @firec...
8 месяцев назад
09.5K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: разбирает каждый тип документа на LLM-доступные данные, сохраняя всю информацию в документе, такую как таблицы и рисунки, в полном объеме.

Общее представление MegaParse - это мощный и универсальный инструмент для разбора документов, разработанный для оптимизации обработки данных в рамках Большой языковой модели (LLM). Работаете ли вы с текстом, PDF, презентациями PowerPoint или документами Word, MegaParse...
9 месяцев назад
09.5K
olmOCR:PDF文档转换为文本,支持表格、公式和手写内容的识别

olmOCR: преобразование PDF-документов в текст, поддержка таблиц, формул и распознавание рукописного текста

Общее представление olmOCR - это инструмент с открытым исходным кодом, разработанный командой AllenNLP в Институте искусственного интеллекта Аллена (AI2), который предназначен для преобразования PDF-файлов...
6 месяцев назад
09.5K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: разбор документов сложного формата, извлечение мультимодальных данных в метаданные и текст

Всеобъемлющее введение NV Ingest (NVIDIA Ingest) - это набор микросервисов раннего доступа, предназначенных для разбора сотен тысяч сложных, беспорядочных неструктурированных PDF-файлов и других корпоративных документов. Он может преобразовывать эти документы в метаданные и текст для встраивания в поисковые...
7 месяцев назад
09.4K
E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一

E2M: конвертируйте файлы различных форматов в Markdown, легко добивайтесь единообразного форматирования документов

Общее представление E2M (Everything to Markdown) - это библиотека Python с открытым исходным кодом, предназначенная для преобразования широкого спектра форматов файлов в формат Markdown. Инструмент поддерживает такие форматы, как doc, docx, epub, html, htm, u...
9 месяцев назад
09.3K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: быстрая реализация семантической дедупликации текста для повышения эффективности очистки данных

Всеобъемлющее введение SemHash - это легкий и гибкий инструмент для дедупликации наборов данных по семантическому сходству. Он сочетает в себе быструю генерацию вкраплений Model2Vec и эффективный поиск сходства ANN (приближенный ближайший сосед) Vicinity.SemHa...
7 месяцев назад
09.1K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: чтение текстовых файлов git-репозитория и их быстрая разбивка на части для больших моделей

Общее введение Yek - это быстрый инструмент на основе Rust для чтения текстовых файлов из репозиториев или каталогов, их разбивки и сериализации для использования в больших языковых моделях (LLM). По умолчанию инструмент использует правило .gitignore для пропуска ненужных файлов, а также использует...
7 месяцев назад
09.1K
pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版

pdf2htmlEX: преобразование PDF в HTML без потерь, с сохранением форматирования текста, подходит для академических статей и журнальных версток

Комплексное введение pdf2htmlEX - это инструмент с открытым исходным кодом, предназначенный для преобразования PDF-файлов в формат HTML, путем анализа содержимого PDF-файла и использования HTML + CSS для точного восстановления его визуального эффекта, PDF-документ будет преобразован в браузер ...
9 месяцев назад
09.1K
Firecrawl MCP Server:基于 Firecrawl 的网页爬虫 MCP 服务

Firecrawl MCP Server: MCP-служба веб-краулера на основе Firecrawl

Общее представление Firecrawl MCP Server - это инструмент с открытым исходным кодом, разработанный MendableAI, основанный на реализации протокола Model Context Protocol (MCP), с Firecrawl A...
6 месяцев назад
09K
GPT-Crawler:自动爬取网站内容生成知识库文件

GPT-Crawler: автоматический просмотр содержимого веб-сайта для создания документов базы знаний

Общее представление GPT-Crawler - это инструмент с открытым исходным кодом, разработанный командой BuilderIO и размещенный на GitHub. Он просматривает содержимое страниц, вводя один или несколько URL-адресов веб-сайтов, генерируя структурированные файлы знаний (output.jso...
2 месяца назад
09K
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

Doc2X: инструменты для распознавания и преобразования формул изображений документов, поддержка многоформатного преобразования и высокоточного перевода

Всеобъемлющее введение Doc2X - это мощный инструмент для распознавания и преобразования формул изображений документов, призванный обеспечить эффективные и интеллектуальные решения для обработки документов. Будь то академическая научная работа, учебник, корпоративный документ или финансовый отчет, Doc2X может точно идентифицировать PDF-таблицы и...
7 месяцев назад
09K
OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

OmniParse: извлечение любых неструктурированных данных из документов/мультимедиа и их разбор в структурированные данные

Общее представление OmniParse - это мощная платформа для разбора и оптимизации данных, предназначенная для преобразования любых неструктурированных данных в структурированные, пригодные для практического применения, оптимизированные для работы с системой GenAI (Generative Artificial Intelligence). Работаете ли вы с документами, таблицами, изображениями, видео, аудиофайлами или...
9 месяцев назад
08.9K
Trieve:提供搜索、推荐和分析的全方位RAG云基础设施

Trieve: облачная инфраструктура RAG с полным спектром услуг, обеспечивающая поиск, рекомендации и аналитику

Общее представление Trieve - это всеобъемлющая инфраструктура, разработанная компанией Devflow, Inc. и предназначенная для поиска, рекомендаций, RAG (Retrieval Augmented Generation) и аналитики. Платформа обслуживается через API и поддерживает самостоятельное размещение на AWS, GCP, K...
9 месяцев назад
08.8K
DevDocs:快速抓取并整理技术文档的MCP服务

DevDocs: MCP-сервис для быстрого поиска и организации технической документации

Общее представление DevDocs - это совершенно бесплатный инструмент с открытым исходным кодом, разработанный командой CyberAGI и размещенный на GitHub. Предназначенный для программистов и разработчиков программного обеспечения, он начинает работу с URL-адресом технического документа, автоматически просматривает соответствующие страницы и организует их в лаконичный ма...
5 месяцев назад
08.8K
OneFileLLM:整合多种数据源为单一文本文件

OneFileLLM: интеграция нескольких источников данных в один текстовый файл

Всеобъемлющее введение OneFileLLM - это инструмент командной строки с открытым исходным кодом, предназначенный для консолидации нескольких источников данных в один текстовый файл для удобного ввода в большие языковые модели (LLM). Он поддерживает обработку репозиториев GitHub, статей ArXiv, транскрипций видео с YouTube, веб-страниц...
4 месяца назад
08.7K
PPTX2MD:将PPTX文件转换为Markdown的专用工具

PPTX2MD: Специальный инструмент для преобразования файлов PPTX в Markdown

Общее представление PPTX2MD - это инструмент с открытым исходным кодом, предназначенный для преобразования файлов PowerPoint PPTX в формат Markdown. Разработанный пользователем GitHub ssine, инструмент поддерживает сохранение заголовков, списков, форматирования текста (например, жирный шрифт, курсив, цвета и супер...
7 месяцев назад
08.7K
LlamaParse:Llamaindex推出的高品质解析文档,提取数据服务(每日免费提取1000页)

LlamaParse: Высококачественный сервис парсинга документов и извлечения данных от Llamaindex (1000 бесплатных страниц в день).

Общее представление LlamaParse - это мощный инструмент для разбора документов, который может обрабатывать сложные документы, такие как PDF, PowerPoint, Word и электронные таблицы, и преобразовывать их в структурированные данные.LlamaParse предлагает множество способов использования...
7 месяцев назад
08.7K
Pulse:文档处理与数据提取的商业解决方案

Пульс: бизнес-решения для обработки документов и извлечения данных

Всеобъемлющее представление Pulse - это интеллектуальная платформа, ориентированная на обработку документов и извлечение данных, призванная помочь предприятиям и разработчикам эффективно анализировать и обрабатывать широкий спектр сложных документов. Благодаря передовым технологиям компьютерного зрения и мультимодальной обработки, Pulse может точно извлекать данные из текста, изображений, таблиц и многих других...
7 месяцев назад
08.7K
Markdownify MCP Server:基于MCP协议将各种内容转换为Markdown格式

Markdownify MCP Server: конвертирует различный контент в формат Markdown на основе протокола MCP.

Общие сведения Введение Markdownify MCP Server - это инструмент с открытым исходным кодом, основанный на протоколе Model Context Protocol, размещенный на GitHub разработчиком Заком Касересом ...
6 месяцев назад
08.5K
文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

API извлечения текста (text-extract-api): визуальное извлечение текстовой информации, инструмент для извлечения анонимных PDF-файлов

Всеобъемлющее введение API извлечения текста (text-extract-api) - это мощный инструмент, предназначенный для извлечения и разбора содержимого из документов различных форматов (например, PDF, Word, PPTX и т. д.). API использует современную технологию оптического распознавания символов (OCR) и Ol...
8 месяцев назад
08.5K
Vision Parse: интеллектуальное преобразование PDF-документов в формат Markdown с помощью моделей визуального языка

Vision Parse: интеллектуальное преобразование PDF-документов в формат Markdown с помощью моделей визуального языка

Всеобъемлющее введение Vision Parse - это революционный инструмент для обработки документов, он разумно сочетает в себе самые передовые технологии визуальных языковых моделей (Vision Language Models), возможность интеллектуального преобразования PDF-документов в высококачественный формат Markdown...
8 месяцев назад
08.4K
CodeWeaver:将代码结构和内容自动生成Markdown文档

CodeWeaver: автоматическая генерация документов в формате Markdown на основе структуры и содержания кода.

Общее представление CodeWeaver - это инструмент командной строки, предназначенный для объединения библиотек кода в единые, удобные для навигации документы в формате Markdown. Он генерирует структурированное представление файловой иерархии проекта, рекурсивно сканируя каталоги и вставляя содержимое каждого файла в блоки кода. Этот инструмент...
6 месяцев назад
08.4K
zChunk:基于Llama-70B的通用语义分块策略

zChunk: общая стратегия семантического чанкинга на основе Llama-70B

Всеобъемлющее введение zChunk - это новая стратегия чанкинга, разработанная компанией ZeroEntropy, цель которой - предоставить решение для общего семантического чанкинга. Стратегия основана на модели Llama-70B, которая оптимизирует процесс разбиения документов на части, предлагая генерировать части, обеспечивая высокий уровень поиска информации...
7 месяцев назад
08.3K
ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

ExtractThinker: извлечение и категоризация документов в структурированные данные для оптимизации процесса обработки документов

Всеобъемлющее представление ExtractThinker - это гибкий инструмент для анализа документов, который извлекает и классифицирует структурированные данные из документов с помощью больших языковых моделей (LLM), обеспечивая бесшовный ORM-подобный рабочий процесс обработки документов. Он поддерживает различные загрузчики документов, включая Tess...
8 месяцев назад
08.3K
pure.md:网址前插入“pure.md/”即可提取干净的文本

pure.md: вставьте "pure.md/" перед URL-адресом, чтобы извлечь чистый текст.

Общее представление pure.md - это инструмент для агентов искусственного интеллекта и разработчиков, предназначенный для быстрого преобразования веб-контента или файлов в формат Markdown. Он обходит ограничения антикраулера через прокси-сервисы, извлекает основные данные веб-страницы и выводит чистый Markdown ...
5 месяцев назад
08.2K
Crawl4LLM:为LLM预训练提供的高效网页爬取工具

Crawl4LLM: эффективный инструмент для предварительного обучения LLM с помощью веб-ползания

Всеобъемлющее введение Crawl4LLM - это проект с открытым исходным кодом, разработанный совместно Университетом Цинхуа и Университетом Карнеги-Меллон и направленный на оптимизацию эффективности веб-ползания для предварительного обучения больших моделей (LLM). Он значительно снижает неэффективность ползания за счет интеллектуального отбора высококачественных данных о веб-страницах, утверждая, что первоначально требуется ползать 1...
6 месяцев назад
08.2K
Rowfill:批量提取文档结构化信息并自动化分析

Rowfill: пакетное извлечение структурированной информации из документов и автоматизированный анализ

Общее представление Rowfill - это платформа обработки документов с открытым исходным кодом, предназначенная для работников сферы знаний. Она использует передовые методы искусственного интеллекта для извлечения, анализа и обработки данных из сложных документов, изображений и PDF-файлов.Rowfill поддерживает нативную модель большого языка (LLM) и оп...
7 месяцев назад
08.1K
ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型
Parsio:自动从 PDF、电子邮件和其他文档中提取关键结构化数据

Parsio: автоматическое извлечение ключевых структурированных данных из PDF-файлов, электронных писем и других документов

Общее представление Parsio - это инструмент для извлечения данных из документов и электронной почты на основе искусственного интеллекта, который автоматически извлекает структурированные данные из PDF-файлов, электронных писем и других документов. Платформа предоставляет мощный парсер PDF и функциональность OCR и поддерживает широкий спектр типов документов, включая...
10 месяцев назад
07.9K
自动解析PDF内容并提取文字与表格的开源服务

Автоматический разбор содержимого PDF и извлечение текста и форм из сервисов с открытым исходным кодом

Всеобъемлющее представление Программа автоматически анализирует макет PDF-документов, идентифицирует текст, заголовки, изображения, таблицы, формулы и другие элементы на странице и определяет их правильный порядок. Инструмент поддерживает функцию OCR и может преобразовывать отсканированные PDF-файлы в текст с возможностью поиска. Он работает на платформе Docker и предоставляет две модели...
5 месяцев назад
07.9K
TextIn:通用文档转换,PDF转Markdown工具

TextIn: Универсальный инструмент для преобразования документов, PDF в уценку

Всеобъемлющее введение TextIn - это профессиональный инструмент для преобразования PDF в Markdown, который поможет пользователям эффективно конвертировать PDF-документы в формат Markdown. Инструмент поддерживает различные форматы файлов, прост в работе, быстро конвертирует документы в формат Markdown, сохраняет оригинальный формат PDF и содержание...
10 месяцев назад
07.9K
MarkPDFDown:基于多模态模型将PDF转为Markdown文件

MarkPDFDown: преобразование PDF в Markdown на основе мультимодальной модели

Общее представление MarkPDFDown - это инструмент с открытым исходным кодом. Он использует модель Multimodal Big Language Model для преобразования PDF-файлов в формат Markdown. Разработчиком является пользователь GitHub jorben. Цель этого инструмента проста: сделать PDF-документы ...
5 месяцев назад
07.9K
AI Functions:将输入内容转换为结构化输出的(API)服务

AI Functions: (API) сервис для преобразования входного контента в структурированные выходные данные.

Всеобъемлющее введение Weco AI Functions - это мощная платформа, призванная помочь пользователям быстро создавать и внедрять функции искусственного интеллекта. Просто описывая задачи, пользователи могут генерировать структурированные выходные шаблоны с A/B-тестированием и мониторингом наблюдений. Платформа поддерживает прототипирование без кода...
7 месяцев назад
07.9K
UnDatas.IO:精准解析各类非结构化数据的API服务(付费)

UnDatas.IO: API-сервис для точного разбора различных типов неструктурированных данных (платно)

Всеобъемлющее введение UnDatas.IO - это платформа, ориентированная на разбор и обработку неструктурированных данных. Она использует передовые технологии для автоматического распознавания макетов документов и классификации таблиц, изображений, формул и текста, значительно упрощая процесс обработки данных. Платформа не только экономит время на сортировке данных...
7 месяцев назад
07.9K
par_scrape:智能提取网页数据的爬虫工具

par_scrape: краулер для интеллектуального извлечения веб-данных

Общее введение par_scrape - это основанный на Python инструмент с открытым исходным кодом, запущенный на GitHub разработчиком Полом Робелло, предназначенный для помощи пользователям в интеллектуальном извлечении данных с веб-страниц. Он интегрирует Selenium...
6 месяцев назад
07.7K
基于Workers AI免费将多种文件转为Markdown格式

Преобразование нескольких файлов в формат Markdown бесплатно на основе Workers AI

Общие сведения Введение serverless-markdown-convertor - это бесплатный инструмент с открытым исходным кодом, основанный на Cloudflare Worker и Workers AI, который конвертирует широкий спектр файлов в Markdow...
5 месяцев назад
07.7K
Supametas.AI:提取非结构化数据为LLM高可用数据

Supametas.AI: извлечение неструктурированных данных в высокодоступные данные LLM

Всеобъемлющее введение Supametas.AI - это платформа обработки данных, которая специализируется на организации беспорядка веб-страниц, документов, аудио и видео в структурированные данные, которые может использовать искусственный интеллект. Она поддерживает сбор данных из различных источников, включая веб-ссылки, API, локальные файлы и т. д., а затем выводит их в виде JSON ...
5 месяцев назад
07.6K
Trellis:转换非结构文档为结构化EXCEL格式数据,PDF快速转表格(付费)

Trellis: преобразование неструктурированных документов в структурированные данные в формате EXCEL, быстрое преобразование PDF в форму (платно)

Общее представление Trellis - это платформа данных, ориентированная на преобразование сложных неструктурированных источников данных в структурированные форматы SQL. Благодаря мощному механизму искусственного интеллекта Trellis способна обрабатывать широкий спектр источников данных, таких как финансовые документы, голосовые звонки и электронные письма, и преобразовывать их в готовые к...
8 месяцев назад
07.6K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

ScrapeGraphAI: одно слово для веб-ползания, не нужно писать правила для интеллектуальных инструментов извлечения веб-контента

Всеобъемлющее введение ScrapeGraphAI - это инновационная библиотека для веб-скреппинга на Python, в которой умело сочетаются моделирование большого языка (LLM) и прямая графовая логика для создания конвейеров скреппинга для веб-сайтов и локальных документов. Что делает этот инструмент уникальным, так это его идеальный уровень простоты и мощности...
7 месяцев назад
07.6K
VOP:提取复杂图表与数学公式的OCR工具

VOP: инструмент OCR для извлечения сложных диаграмм и математических формул

Всеобъемлющее введение Универсальная программа OCR - это инструмент оптического распознавания символов (OCR) с открытым исходным кодом, предназначенный для работы со сложными академическими и образовательными документами. Она может извлекать текст, таблицы, математические формулы, диаграммы и схемы из PDF-файлов, изображений и других документов и генерировать...
5 месяцев назад
07.5K
Instructor:简化大语言模型结构化输出工作流的Python库

Instructor: библиотека Python для упрощения структурированного вывода для больших языковых моделей

Общее представление Instructor - это популярная библиотека Python, предназначенная для обработки структурированных данных, полученных с помощью больших языковых моделей (LLM). Построенная на основе Pydantic, она предоставляет простой, прозрачный и удобный API для управления данными...
7 месяцев назад
07.5K
Cloudsquid:上传文档并描述要求智能提取结构化数据

Cloudsquid: загрузите документы и опишите требования к интеллектуальному извлечению структурированных данных

Общее представление Cloudsquid - это компания, основанная в 2023 году в Берлине, Германия, которая занимается упрощением обработки документов с помощью искусственного интеллекта. Ее основной продукт - онлайн-платформа для извлечения данных, которая позволяет пользователям просто загружать документы, такие как PDF, изображения, аудио, видео и т. д., и просто заявлять, что им нужно извлечь...
5 месяцев назад
07.2K
SmolDocling:小体积高效处理文档的视觉语言模型

SmolDocling: визуальная языковая модель для эффективной обработки документов небольшого объема

Всеобъемлющее введение SmolDocling - это визуальная модель языка (VLM), разработанная командой ds4sd в сотрудничестве с IBM, построенная на SmolVLM-256M и размещенная на платформе Hugging Face. Она имеет небольшой размер, всего ...
5 месяцев назад
07.1K