Извлечение и очистка документов

Всего 67 статей

расставлять по порядку

API Reader: инструмент для извлечения веб-контента, преобразование HTML в Markdown

Общее представление Проект Jina AI's Reader - это инструмент с открытым исходным кодом (Reader open source address), который принимает любой URL, добавляя префикс https://r.jina.ai/转换成适合大型语言模型 (Large Languag...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

0359.3K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU: извлечение и преобразование PDF-документов в мультимодальный формат Markdown, поддержка OCR-сканирования электронных книг

Всеобъемлющее введение MinerU - это инструмент извлечения данных с открытым исходным кодом, разработанный командой OpenDataLab в Шанхайской лаборатории искусственного интеллекта и предназначенный для эффективного извлечения содержимого из сложных PDF-документов, веб-страниц и электронных книг. Он способен извлекать мультимодальные PDF-файлы, содержащие изображения, формулы, таблицы и другие элементы...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # OCR # Извлечение и очистка документов

2 года назад

0166.9K

Chatlog: инструмент с открытым исходным кодом для извлечения и запроса журналов чатов WeChat.

Общее представление Chatlog - это инструмент с открытым исходным кодом, предназначенный для извлечения и запроса журналов чатов из локальной базы данных WeChat. Он поддерживает WeChat версий 3.x и 4.0, охватывая системы Windows и macOS. Пользователи могут использовать командную строку, интерфейс терминала или H...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct Услуги # MCP # Извлечение и очистка документов

1 год назад

0159K

Marker: быстрое преобразование PDF в Markdown с открытым исходным кодом

Общее представление Marker - это инструмент для обработки документов на основе глубокого обучения, предназначенный для быстрого и точного преобразования PDF-файлов в формат Markdown. Он поддерживает широкий спектр типов документов и особенно оптимизирован для преобразования книг и научных работ.Marker способен удалять заголовки...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

0153.4K

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Docling: поддержка различных форматов, разбор и экспорт документов в формате Markdown и JSON, поддержка OCR в формате PDF.

Всеобъемлющее представление Docling - это мощный инструмент для разбора и экспорта документов, поддерживающий широкий спектр форматов, включая PDF, DOCX, PPTX, XLSX, Image, HTML, AsciiDoc и Markdown...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # OCR # Извлечение и очистка документов

2 года назад

0131.1K

Mathpix: программа для структурированного преобразования документов PDF и изображений, поддержка многотерминального режима

Общее описание Mathpix - это мощный инструмент для автоматизации работы с документами, основанный на искусственном интеллекте и предназначенный для исследователей, разработчиков и предприятий. Он быстро и точно преобразует PDF-файлы и изображения в текст, пригодный для поиска, экспорта и машинного чтения.Mathpix предлагает широкий спектр функций...

Последние ресурсы по искусственному интеллекту # AI Open Services # Извлечение и очистка документов

2 года назад

0130.6K

Ollama OCR: извлечение текста из изображений с помощью визуальных моделей в Ollama

Введение Ollama OCR - это мощный набор инструментов для оптического распознавания символов (OCR), который использует современную визуальную языковую модель, предоставляемую платформой Ollama, для извлечения текста из изображений. Проект доступен как в виде пакета на языке Python, так и в виде удобного Strea...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # OCR # Извлечение и очистка документов

2 года назад

0128.3K

PDF-Extract-Kit: извлечение сложной структуры содержимого PDF с помощью инструмента с открытым исходным кодом.

Всеобъемлющее введение PDF-Extract-Kit - это проект с открытым исходным кодом, разработанный командой OpenDataLab, ориентированный на эффективное извлечение высококачественного контента из сложных и разнообразных PDF-документов. Он интегрирует передовую технологию разбора документов для поддержки обнаружения макета, распознавания формул ...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

0126.7K

Doc2X: инструменты для распознавания и преобразования формул изображений документов, поддержка многоформатного преобразования и высокоточного перевода

Всеобъемлющее введение Doc2X - это мощный инструмент для распознавания и преобразования формул изображений документов, призванный обеспечить эффективные и интеллектуальные решения для обработки документов. Будь то академическая научная работа, учебник, корпоративный документ или финансовый отчет, Doc2X может точно идентифицировать PDF-таблицы и...

Последние ресурсы по искусственному интеллекту # AI Open Services Перевод # AI # Извлечение и очистка документов

1 год назад

0114.5K

Repomix: упаковка кодовой базы в текстовый файл для поиска больших моделей

Общее введение Repomix (ранее известный как Repopack) - это инструмент с открытым исходным кодом, предназначенный для упаковки всей кодовой базы в один файл, удобный для AI. Этот инструмент позволяет разработчикам легко сделать свою кодовую базу доступной для больших языковых моделей (таких как Claude, Chat...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

0114.1K

PDF Craft: преобразование отсканированных документов PDF в Markdown с открытым исходным кодом

Общее представление PDF Craft - это инструмент с открытым исходным кодом, предназначенный для сканирования PDF-файлов книг и преобразования их в формат Markdown. Он был разработан oomol-lab и размещен на GitHub для пользователей, которым нравится организовывать свои электронные книги. Инструмент работает через ...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # OCR # Извлечение и очистка документов

1 год назад

0106.7K

pure.md: вставьте "pure.md/" перед URL-адресом, чтобы извлечь чистый текст.

Общее представление pure.md - это инструмент для агентов искусственного интеллекта и разработчиков, предназначенный для быстрого преобразования веб-контента или файлов в формат Markdown. Он обходит ограничения антикраулера через прокси-сервисы, извлекает основные данные веб-страницы и выводит чистый Markdown ...

Последние ресурсы по искусственному интеллекту # AI Open Services # Извлечение и очистка документов

1 год назад

0105.3K

Outlines：通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Outlines: генерирует структурированный текст с помощью регулярных выражений, JSON или моделей Pydantic.

Общее представление Outlines - это библиотека с открытым исходным кодом, разработанная dottxt-ai для расширения возможностей применения больших языковых моделей (LLM) путем создания структурированного текста. Библиотека поддерживает различные интеграции моделей, включая OpenAI, трансформаторы...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

0101.6K

GitIngest: быстрое преобразование репозиториев кода Github в текст, пригодный для понимания LLM

Общие сведения Введение GitIngest - это инструмент с открытым исходным кодом, предназначенный для преобразования репозиториев кода GitHub в текст, подходящий для подсказок Large Language Model (LLM). С помощью простой операции пользователи могут извлечь и отформатировать содержимое любого репозитория GitHub, чтобы оно соответствовало LLM ...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

0100.3K

PPTX2MD: Специальный инструмент для преобразования файлов PPTX в Markdown

Общее представление PPTX2MD - это инструмент с открытым исходным кодом, предназначенный для преобразования файлов PowerPoint PPTX в формат Markdown. Разработанный пользователем GitHub ssine, инструмент поддерживает сохранение заголовков, списков, форматирования текста (например, жирный шрифт, курсив, цвета и супер...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

099.7K

Firecrawl MCP Server：基于 Firecrawl 的网页爬虫 MCP 服务

Firecrawl MCP Server: MCP-служба веб-краулера на основе Firecrawl

Общее представление Firecrawl MCP Server - это инструмент с открытым исходным кодом, разработанный MendableAI, основанный на реализации протокола Model Context Protocol (MCP), с Firecrawl A...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct Услуги # MCP # Извлечение и очистка документов

1 год назад

097K

Неструктурированные: препроцессинг неструктурированных документов с открытым исходным кодом, инструменты обработки неструктурированных данных

Всеобъемлющее введение Unstructured-IO представляет собой набор компонентов с открытым исходным кодом для обработки и предварительной обработки изображений и текстовых документов, таких как PDF, HTML, документы Word и т. д. Его основная цель - упростить и оптимизировать рабочие процессы обработки данных, особенно для больших языковых моделей (LL...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

095.5K

Zerox: PDF, DOCX, преобразование изображений в Markdown, высокоточное распознавание визуальных моделей

Общее представление Zerox - это проект с открытым исходным кодом, предназначенный для преобразования PDF, DOCX, изображений и других документов в формат Markdown с помощью визуальных моделей. Проект разработан командой getomni-ai и представляет собой простое и эффективное решение OCR (Optical Character Recognition).Ze...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

093.8K

LlamaParse：Llamaindex推出的高品质解析文档，提取数据服务（每日免费提取1000页）

LlamaParse: Высококачественный сервис парсинга документов и извлечения данных от Llamaindex (1000 бесплатных страниц в день).

Общее представление LlamaParse - это мощный инструмент для разбора документов, который может обрабатывать сложные документы, такие как PDF, PowerPoint, Word и электронные таблицы, и преобразовывать их в структурированные данные.LlamaParse предлагает множество способов использования...

Последние ресурсы по искусственному интеллекту # AI Open Services # Извлечение и очистка документов

1 год назад

090.6K

SemHash: быстрая реализация семантической дедупликации текста для повышения эффективности очистки данных

Всеобъемлющее введение SemHash - это легкий и гибкий инструмент для дедупликации наборов данных по семантическому сходству. Он сочетает в себе быструю генерацию вкраплений Model2Vec и эффективный поиск сходства ANN (приближенный ближайший сосед) Vicinity.SemHa...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

090.1K

Chonkie: легкая библиотека для разбивки текста на части в RAG

Всеобъемлющее введение Chonkie - это легкая и эффективная библиотека RAG (Retrieval-Augmented Generation) для разбивки текста на куски, призванная помочь разработчикам быстро и легко разбивать текст на куски. Библиотека поддерживает различные методы разбивки, включая ...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

090K

olmOCR: преобразование PDF-документов в текст, поддержка таблиц, формул и распознавание рукописного текста

Общее представление olmOCR - это инструмент с открытым исходным кодом, разработанный командой AllenNLP в Институте искусственного интеллекта Аллена (AI2), который предназначен для преобразования PDF-файлов...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

089K

Flying Paddle PP-TableMagic: структурированное извлечение информации для сложных таблиц

Целью распознавания таблиц является разбор таблиц на изображениях, точная идентификация структуры таблиц и расположения ячеек, а также приведение их к структурированным табличным форматам (например, HTML). В современный информационный век большое количество важных табличных данных по-прежнему существует в неструктурированном виде (например, отсканированные документы с изображениями статистических таблиц...).

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

087.7K

Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式

Markdownify MCP Server: конвертирует различный контент в формат Markdown на основе протокола MCP.

Общие сведения Введение Markdownify MCP Server - это инструмент с открытым исходным кодом, основанный на протоколе Model Context Protocol, размещенный на GitHub разработчиком Заком Касересом ...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct Услуги # MCP # Извлечение и очистка документов

1 год назад

087.2K

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab: специализированная модель ИИ для распознавания OCR, преобразование PDF в Markdown (открытый исходный код/API).

Всеобъемлющее представление Datalab предлагает ряд продвинутых моделей искусственного интеллекта, ориентированных на OCR, анализ макетов, преобразование PDF в Markdown и многое другое. Эти модели не только высокопроизводительны, но и просты в использовании и имеют открытый исходный код. Модели Marker на платформе могут быстро и точно...

Последние ресурсы по искусственному интеллекту # AI Open Services # AI Java Open Source Projecct # OCR

2 года назад

085.6K

MarkItDown: Инструмент интеллектуального преобразования документов Microsoft для конвертации различных файлов в формат Markdown

Общее представление MarkItDown - это инструмент на языке Python, разработанный компанией Microsoft и предназначенный для преобразования различных файлов и офисных документов в формат Markdown. Инструмент поддерживает широкий спектр типов файлов, включая PDF, PowerPoint, Word, Excel, диаграммы...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

083.2K

NV Ingest: разбор документов сложного формата, извлечение мультимодальных данных в метаданные и текст

Всеобъемлющее введение NV Ingest (NVIDIA Ingest) - это набор микросервисов раннего доступа, предназначенных для разбора сотен тысяч сложных, беспорядочных неструктурированных PDF-файлов и других корпоративных документов. Он может преобразовывать эти документы в метаданные и текст для встраивания в поисковые...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

082.5K

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息

MegaParse: разбирает каждый тип документа на LLM-доступные данные, сохраняя всю информацию в документе, такую как таблицы и рисунки, в полном объеме.

Общее представление MegaParse - это мощный и универсальный инструмент для разбора документов, разработанный для оптимизации обработки данных в рамках Большой языковой модели (LLM). Работаете ли вы с текстом, PDF, презентациями PowerPoint или документами Word, MegaParse...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

082.3K

Maxun: платформа с открытым исходным кодом, которая автоматически просматривает веб-данные и преобразует их в API или электронные таблицы.

Всеобъемлющее введение Maxun - это платформа для извлечения веб-данных с открытым исходным кодом, которая позволяет пользователям за считанные минуты обучить роботов автоматическому сканированию веб-данных и преобразованию их в API или электронные таблицы. Платформа поддерживает пагинацию и скроллинг, адаптируется к изменениям в макете сайта, предоставляет мощные...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

080.1K

Trieve: облачная инфраструктура RAG с полным спектром услуг, обеспечивающая поиск, рекомендации и аналитику

Общее представление Trieve - это всеобъемлющая инфраструктура, разработанная компанией Devflow, Inc. и предназначенная для поиска, рекомендаций, RAG (Retrieval Augmented Generation) и аналитики. Платформа обслуживается через API и поддерживает самостоятельное размещение на AWS, GCP, K...

Последние ресурсы по искусственному интеллекту # AI Open Services # Извлечение и очистка документов

2 года назад

080K

ExtractThinker: извлечение и категоризация документов в структурированные данные для оптимизации процесса обработки документов

Всеобъемлющее представление ExtractThinker - это гибкий инструмент для анализа документов, который извлекает и классифицирует структурированные данные из документов с помощью больших языковых моделей (LLM), обеспечивая бесшовный ORM-подобный рабочий процесс обработки документов. Он поддерживает различные загрузчики документов, включая Tess...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

079.6K

GPT-Crawler: автоматический просмотр содержимого веб-сайта для создания документов базы знаний

Общее представление GPT-Crawler - это инструмент с открытым исходным кодом, разработанный командой BuilderIO и размещенный на GitHub. Он просматривает содержимое страниц, вводя один или несколько URL-адресов веб-сайтов, генерируя структурированные файлы знаний (output.jso...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

079.3K

E2M: конвертируйте файлы различных форматов в Markdown, легко добивайтесь единообразного форматирования документов

Общее представление E2M (Everything to Markdown) - это библиотека Python с открытым исходным кодом, предназначенная для преобразования широкого спектра форматов файлов в формат Markdown. Инструмент поддерживает такие форматы, как doc, docx, epub, html, htm, u...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

079.2K

MarkPDFDown: преобразование PDF в Markdown на основе мультимодальной модели

Общее представление MarkPDFDown - это инструмент с открытым исходным кодом. Он использует модель Multimodal Big Language Model для преобразования PDF-файлов в формат Markdown. Разработчиком является пользователь GitHub jorben. Цель этого инструмента проста: сделать PDF-документы ...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

079.1K

ScrapeGraphAI：一个提示词搞定网页抓取，无需编写规则智能网页内容提取工具

ScrapeGraphAI: одно слово для веб-ползания, не нужно писать правила для интеллектуальных инструментов извлечения веб-контента

Всеобъемлющее введение ScrapeGraphAI - это инновационная библиотека для веб-скреппинга на Python, в которой умело сочетаются моделирование большого языка (LLM) и прямая графовая логика для создания конвейеров скреппинга для веб-сайтов и локальных документов. Что делает этот инструмент уникальным, так это его идеальный уровень простоты и мощности...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

079K

pdf2htmlEX：PDF无损转换为HTML，保持文本格式，适用于学术论文和杂志排版

pdf2htmlEX: преобразование PDF в HTML без потерь, с сохранением форматирования текста, подходит для академических статей и журнальных версток

Комплексное введение pdf2htmlEX - это инструмент с открытым исходным кодом, предназначенный для преобразования PDF-файлов в формат HTML, путем анализа содержимого PDF-файла и использования HTML + CSS для точного восстановления его визуального эффекта, PDF-документ будет преобразован в браузер ...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

078.8K

Parsio: автоматическое извлечение ключевых структурированных данных из PDF-файлов, электронных писем и других документов

Общее представление Parsio - это инструмент для извлечения данных из документов и электронной почты на основе искусственного интеллекта, который автоматически извлекает структурированные данные из PDF-файлов, электронных писем и других документов. Платформа предоставляет мощный парсер PDF и функциональность OCR и поддерживает широкий спектр типов документов, включая...

Последние ресурсы по искусственному интеллекту # Извлечение и очистка документов

2 года назад

078.4K

AI Functions: (API) сервис для преобразования входного контента в структурированные выходные данные.

Всеобъемлющее введение Weco AI Functions - это мощная платформа, призванная помочь пользователям быстро создавать и внедрять функции искусственного интеллекта. Просто описывая задачи, пользователи могут генерировать структурированные выходные шаблоны с A/B-тестированием и мониторингом наблюдений. Платформа поддерживает прототипирование без кода...

Последние ресурсы по искусственному интеллекту # AI Open Services # Извлечение и очистка документов

1 год назад

078.1K

Kreuzberg: инструмент с открытым исходным кодом для извлечения текста из любого документа

Общее представление Kreuzberg - это библиотека для упрощения извлечения текста из PDF-файлов, разработанная для обеспечения простого и удобного решения для извлечения текста. Библиотека особенно подходит для RAG (Retrieval-Augmented Generatio...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

077.8K

Yek: чтение текстовых файлов git-репозитория и их быстрая разбивка на части для больших моделей

Общее введение Yek - это быстрый инструмент на основе Rust для чтения текстовых файлов из репозиториев или каталогов, их разбивки и сериализации для использования в больших языковых моделях (LLM). По умолчанию инструмент использует правило .gitignore для пропуска ненужных файлов, а также использует...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

077.6K

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

API извлечения текста (text-extract-api): визуальное извлечение текстовой информации, инструмент для извлечения анонимных PDF-файлов

Всеобъемлющее введение API извлечения текста (text-extract-api) - это мощный инструмент, предназначенный для извлечения и разбора содержимого из документов различных форматов (например, PDF, Word, PPTX и т. д.). API использует современную технологию оптического распознавания символов (OCR) и Ol...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # OCR # Извлечение и очистка документов

2 года назад

077.2K

Parseur: автоматическое извлечение данных из документов, извлечение структурированного текста из всех типов документов

Общее описание Parseur - это ведущее программное обеспечение для извлечения данных с искусственным интеллектом, предназначенное для автоматического извлечения текстовых данных из PDF-файлов, электронных писем и других документов. С помощью Parseur пользователи могут легко преобразовывать неструктурированные данные в структурированные и отправлять их в различные приложения...

Последние ресурсы по искусственному интеллекту # Извлечение и очистка документов

1 год назад

076.9K

CodeWeaver: автоматическая генерация документов в формате Markdown на основе структуры и содержания кода.

Общее представление CodeWeaver - это инструмент командной строки, предназначенный для объединения библиотек кода в единые, удобные для навигации документы в формате Markdown. Он генерирует структурированное представление файловой иерархии проекта, рекурсивно сканируя каталоги и вставляя содержимое каждого файла в блоки кода. Этот инструмент...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

076.7K

Mistral OCR: 94,89% общая точность, 1000 страниц/30 секунд, всего $1

За долгую историю человеческой цивилизации каждый скачок в способах получения и обработки информации вносил глубокий вклад в социальный прогресс. От древних иероглифов до переносного папируса, а затем появления печатного станка и сегодняшней цифровой волны - каждая технологическая инновация значительно расширяла парадигму распространения человеческих знаний...

Последние ресурсы по искусственному интеллекту # AI Open Services # OCR # Извлечение и очистка документов

1 год назад

076.3K

Автоматический разбор содержимого PDF и извлечение текста и форм из сервисов с открытым исходным кодом

Всеобъемлющее представление Программа автоматически анализирует макет PDF-документов, идентифицирует текст, заголовки, изображения, таблицы, формулы и другие элементы на странице и определяет их правильный порядок. Инструмент поддерживает функцию OCR и может преобразовывать отсканированные PDF-файлы в текст с возможностью поиска. Он работает на платформе Docker и предоставляет две модели...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # OCR # Извлечение и очистка документов

1 год назад

075.7K

Crawl4LLM: эффективный инструмент для предварительного обучения LLM с помощью веб-ползания

Всеобъемлющее введение Crawl4LLM - это проект с открытым исходным кодом, разработанный совместно Университетом Цинхуа и Университетом Карнеги-Меллон и направленный на оптимизацию эффективности веб-ползания для предварительного обучения больших моделей (LLM). Он значительно снижает неэффективность ползания за счет интеллектуального отбора высококачественных данных о веб-страницах, утверждая, что первоначально требуется ползать 1...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

075.3K

DevDocs: MCP-сервис для быстрого поиска и организации технической документации

Общее представление DevDocs - это совершенно бесплатный инструмент с открытым исходным кодом, разработанный командой CyberAGI и размещенный на GitHub. Предназначенный для программистов и разработчиков программного обеспечения, он начинает работу с URL-адресом технического документа, автоматически просматривает соответствующие страницы и организует их в лаконичный ма...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct Услуги # MCP # Извлечение и очистка документов

1 год назад

075.2K

Rowfill: пакетное извлечение структурированной информации из документов и автоматизированный анализ

Общее представление Rowfill - это платформа обработки документов с открытым исходным кодом, предназначенная для работников сферы знаний. Она использует передовые методы искусственного интеллекта для извлечения, анализа и обработки данных из сложных документов, изображений и PDF-файлов.Rowfill поддерживает нативную модель большого языка (LLM) и оп...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Анализ данных искусственного интеллекта # Извлечение и очистка документов

1 год назад

075.1K

Instructor: библиотека Python для упрощения структурированного вывода для больших языковых моделей

Общее представление Instructor - это популярная библиотека Python, предназначенная для обработки структурированных данных, полученных с помощью больших языковых моделей (LLM). Построенная на основе Pydantic, она предоставляет простой, прозрачный и удобный API для управления данными...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

074.7K

TextIn: Универсальный инструмент для преобразования документов, PDF в уценку

Всеобъемлющее введение TextIn - это профессиональный инструмент для преобразования PDF в Markdown, который поможет пользователям эффективно конвертировать PDF-документы в формат Markdown. Инструмент поддерживает различные форматы файлов, прост в работе, быстро конвертирует документы в формат Markdown, сохраняет оригинальный формат PDF и содержание...

Последние ресурсы по искусственному интеллекту # Извлечение и очистка документов

2 года назад

074.6K

ViTLP: извлечение структурированных данных из типографически сложных PDF-документов и визуально управляемая генерация предварительно обученных моделей для компоновки текста

Всеобъемлющее введение ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) - это проект с открытым исходным кодом, предназначенный для передачи...

Последние ресурсы по искусственному интеллекту # OCR # Извлечение и очистка документов

2 года назад

074.6K

HtmlRAG：构建高效HTML检索增强生成系统，优化RAG系统中的HTML文档检索与处理

HtmlRAG: создание эффективной системы расширенного поиска HTML, оптимизация поиска и обработки HTML-документов в системах RAG

Всеобъемлющее введение HtmlRAG - это инновационный проект с открытым исходным кодом, направленный на улучшение обработки HTML-документов в системах Retrieval Augmented Generation (RAG). Проект представляет новый подход, который доказывает, что использование HTML-форматирования в системах RAG более эффективно, чем обычного текста. Проект содержит полный ...

Последние ресурсы по искусственному интеллекту # Извлечение и очистка документов # Поиск знаний и RAG Framework

2 года назад

074.1K

Cloudsquid: загрузите документы и опишите требования к интеллектуальному извлечению структурированных данных

Общее представление Cloudsquid - это компания, основанная в 2023 году в Берлине, Германия, которая занимается упрощением обработки документов с помощью искусственного интеллекта. Ее основной продукт - онлайн-платформа для извлечения данных, которая позволяет пользователям просто загружать документы, такие как PDF, изображения, аудио, видео и т. д., и просто заявлять, что им нужно извлечь...

Последние ресурсы по искусственному интеллекту # Извлечение и очистка документов

1 год назад

074.1K

Chunkr: универсальный сервис, использующий визуальные модели для сбора документов и интеллектуальной группировки на основе иерархии абзацев текста.

Общее введение Chunkr - это самостоятельный API, предназначенный для преобразования файлов PDF, PPTX, DOCX и Excel в данные, пригодные для использования в RAG (Retrieval Augmented Generation) и LLM (Large Language Modelling). Проект был разработан компанией Lumina...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # OCR # Извлечение и очистка документов

2 года назад

073.8K

par_scrape: краулер для интеллектуального извлечения веб-данных

Общее введение par_scrape - это основанный на Python инструмент с открытым исходным кодом, запущенный на GitHub разработчиком Полом Робелло, предназначенный для помощи пользователям в интеллектуальном извлечении данных с веб-страниц. Он интегрирует Selenium...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

073.8K

Vision Parse: интеллектуальное преобразование PDF-документов в формат Markdown с помощью моделей визуального языка

Всеобъемлющее введение Vision Parse - это революционный инструмент для обработки документов, он разумно сочетает в себе самые передовые технологии визуальных языковых моделей (Vision Language Models), возможность интеллектуального преобразования PDF-документов в высококачественный формат Markdown...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

073.5K

Преобразование нескольких файлов в формат Markdown бесплатно на основе Workers AI

Общие сведения Введение serverless-markdown-convertor - это бесплатный инструмент с открытым исходным кодом, основанный на Cloudflare Worker и Workers AI, который конвертирует широкий спектр файлов в Markdow...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

073.4K

llms.txt Generator：快速抓取网站内容并，生成LLM训练文本数据集

Генератор llms.txt: быстрый захват содержимого веб-сайта и создание наборов учебных текстовых данных LLM.

Всеобъемлющее введение llmstxt-generator - это профессиональный инструмент для извлечения и интеграции веб-контента, предназначенный для подготовки высококачественных текстовых наборов данных для обучения и выводов в большом языковом моделировании (LLM). Инструмент был разработан компанией Mendable AI с использованием @firec...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

073.3K

Supametas.AI: извлечение неструктурированных данных в высокодоступные данные LLM

Всеобъемлющее введение Supametas.AI - это платформа обработки данных, которая специализируется на организации беспорядка веб-страниц, документов, аудио и видео в структурированные данные, которые может использовать искусственный интеллект. Она поддерживает сбор данных из различных источников, включая веб-ссылки, API, локальные файлы и т. д., а затем выводит их в виде JSON ...

Последние ресурсы по искусственному интеллекту # AI Open Services # Извлечение и очистка документов

1 год назад

073K

OneFileLLM: интеграция нескольких источников данных в один текстовый файл

Всеобъемлющее введение OneFileLLM - это инструмент командной строки с открытым исходным кодом, предназначенный для консолидации нескольких источников данных в один текстовый файл для удобного ввода в большие языковые модели (LLM). Он поддерживает обработку репозиториев GitHub, статей ArXiv, транскрипций видео с YouTube, веб-страниц...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

072.5K

Пульс: бизнес-решения для обработки документов и извлечения данных

Всеобъемлющее представление Pulse - это интеллектуальная платформа, ориентированная на обработку документов и извлечение данных, призванная помочь предприятиям и разработчикам эффективно анализировать и обрабатывать широкий спектр сложных документов. Благодаря передовым технологиям компьютерного зрения и мультимодальной обработки, Pulse может точно извлекать данные из текста, изображений, таблиц и многих других...

Последние ресурсы по искусственному интеллекту # Извлечение и очистка документов

1 год назад

071.9K

Trellis：转换非结构文档为结构化EXCEL格式数据，PDF快速转表格（付费）

Trellis: преобразование неструктурированных документов в структурированные данные в формате EXCEL, быстрое преобразование PDF в форму (платно)

Общее представление Trellis - это платформа данных, ориентированная на преобразование сложных неструктурированных источников данных в структурированные форматы SQL. Благодаря мощному механизму искусственного интеллекта Trellis способна обрабатывать широкий спектр источников данных, таких как финансовые документы, голосовые звонки и электронные письма, и преобразовывать их в готовые к...

Последние ресурсы по искусственному интеллекту # Извлечение и очистка документов

2 года назад

071.9K

UnDatas.IO: API-сервис для точного разбора различных типов неструктурированных данных (платно)

Всеобъемлющее введение UnDatas.IO - это платформа, ориентированная на разбор и обработку неструктурированных данных. Она использует передовые технологии для автоматического распознавания макетов документов и классификации таблиц, изображений, формул и текста, значительно упрощая процесс обработки данных. Платформа не только экономит время на сортировке данных...

Последние ресурсы по искусственному интеллекту # AI Open Services # Извлечение и очистка документов

1 год назад

069.9K

VOP: инструмент OCR для извлечения сложных диаграмм и математических формул

Всеобъемлющее введение Универсальная программа OCR - это инструмент оптического распознавания символов (OCR) с открытым исходным кодом, предназначенный для работы со сложными академическими и образовательными документами. Она может извлекать текст, таблицы, математические формулы, диаграммы и схемы из PDF-файлов, изображений и других документов и генерировать...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # OCR # Извлечение и очистка документов

1 год назад

068.1K

OmniParse: извлечение любых неструктурированных данных из документов/мультимедиа и их разбор в структурированные данные

Общее представление OmniParse - это мощная платформа для разбора и оптимизации данных, предназначенная для преобразования любых неструктурированных данных в структурированные, пригодные для практического применения, оптимизированные для работы с системой GenAI (Generative Artificial Intelligence). Работаете ли вы с документами, таблицами, изображениями, видео, аудиофайлами или...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

2 года назад

067.7K

SmolDocling: визуальная языковая модель для эффективной обработки документов небольшого объема

Всеобъемлющее введение SmolDocling - это визуальная модель языка (VLM), разработанная командой ds4sd в сотрудничестве с IBM, построенная на SmolVLM-256M и размещенная на платформе Hugging Face. Она имеет небольшой размер, всего ...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # OCR # Извлечение и очистка документов

1 год назад

066.5K

zChunk: общая стратегия семантического чанкинга на основе Llama-70B

Всеобъемлющее введение zChunk - это новая стратегия чанкинга, разработанная компанией ZeroEntropy, цель которой - предоставить решение для общего семантического чанкинга. Стратегия основана на модели Llama-70B, которая оптимизирует процесс разбиения документов на части, предлагая генерировать части, обеспечивая высокий уровень поиска информации...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

066.2K

Дело не в этом.