RAG база знаний существенное извлечение документов сравнение проектов с открытым исходным кодом

База знаний по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

64.2K 00

Недавно я выбирал проект по обслуживанию клиентов для RAG Инструменты обработки данных базы знаний, свежий взгляд на современные мейнстримные проекты обработки документов, включая olmOCR, Marker, MinerU, Docling, Markitdown, Llamaparse шесть инструментов, и их краткое сравнение. Всесторонний взгляд. MinerU Извлечение документов является более общим, подходит для всех видов сценариев, но другие предлагаемые инструменты имеют свои собственные характеристики, пожалуйста, выбирайте в соответствии с их собственными потребностями.

olmOCR

Техническая архитектура: Основана на большой языковой модели для создания полного процесса обработки PDF. В нем используется распределенная архитектура для поддержки параллельной обработки на одном или нескольких узлах, а также sglang для ускорения вычислений на GPU.

Функциональные особенности: обладает высококачественными возможностями извлечения текста, может извлекать структурированный текст из сложных PDF-файлов, корректно обрабатывает многоколоночные макеты, таблицы, математические уравнения и рукописный контент. Выдает результаты в формате Markdown; стоимость обработки 1 000 000 PDF-страниц составляет около 190 долларов; также превосходит Marker, MinerU и GOT-OCR 2.0 и другие подобные инструменты.

Сценарии применения: оцифровка академических документов, преобразование хранилищ документов корпоративного уровня, создание обучающих наборов данных для ИИ и восстановление исторического содержания документов.

✅ Преимущество: проект с открытым исходным кодом, высокое качество парсинга, более низкая стоимость по сравнению с коммерческими API, отличная производительность.

❎ недостатки: использование более высокого порога, необходимость в различных системных зависимостях; все еще находится на ранней стадии разработки, документация нуждается в улучшении; в настоящее время поддерживает только разбор PDF и изображений.

https://github.com/allenai/olmocr

Маркер

Техническая архитектура: на основе PyMuPDF и Tesseract OCR, поддержка GPU-ускорения (движок Surya OCR), легкий открытый исходный код.

Особенности: Фокус на PDF в Markdown, поддержка формул в LaTeX, сохранение изображений в строке, распознавание OCR отсканированных PDF, возможность работы с многоязычными документами.

Сценарий: для научных исследований литературы, книг и других основных потребностей преобразования PDF, подходит для пользователей с техническим образованием для быстрого развертывания.

✅ Преимущество: открытый исходный код и бесплатность, высокая скорость обработки (в 4 раза быстрее, чем у аналогичных программ).

🙅‍♀️ Недостатки: отсутствие возможности разбора сложных макетов, зависимость от локальных ресурсов GPU.

https://github.com/VikParuchuri/marker

MinerU

Техническая архитектура: интеграция LayoutLMv3, YOLOv8 и других моделей, поддержка мультимодального парсинга (таблица/формула/изображение), опора на среду Docker и CUDA.

Особенности: Точное извлечение текста PDF, автоматическая фильтрация заголовков/строк, поддержка преобразования EPUB/MOBI/DOCX в Markdown или JSON, многоязычный OCR (84 языка), встроенная модель UniMERNet, оптимизированная для распознавания формул.

Сценарии применения: применимы для управления учебной литературой, анализа финансовой отчетности и других сценариев, требующих высокоточного структурирования.

✅ Преимущество: соответствие требованиям безопасности корпоративного уровня с поддержкой API и графического интерфейса.

🙅 Недостатки: зависимость от GPU, медленная обработка форм, сложная конфигурация.

https://github.com/opendatalab/MinerU

Доклинг

Техническая архитектура: модульная конструкция, интеграция Unstructured, LayoutParser и других библиотек, поддержка локализации.

Возможности: разбор PDF/DOCX/PPTX и других форматов, сохранение порядка чтения и структуры таблиц, поддержка OCR и интеграция с LangChain, вывод Markdown или JSON.

Сценарии применения: подходит для решения корпоративных контрактов, автоматизации отчетов и других сложных приложений, которые необходимо объединить с системой искусственного интеллекта.

✅ Преимущество: совместимость с IBM Eco и поддержка смешанной обработки нескольких форматов.

🙅‍♀️ Недостаточно: требуется среда CUDA, а некоторые функции опираются на коммерческие модели.

https://github.com/DS4SD/docling

Markitdown

Техническая архитектура: проект Microsoft с открытым исходным кодом, интегрированный GPT - 4 и другие модели для достижения улучшения AI обработки, поддержка мультиформатного преобразования.

Особенности: поддержка Word/Excel/PPT, изображений (OCR), аудио (транскрипция голоса) в Markdown, пакетная обработка ZIP-файлов, возможность генерировать описания изображений (требуется OpenAI API).

Сценарий: подходит для создания мультиформатного смешанного контента, например, графиков PPT в документы, транскрипции аудио и видео.

✅ Преимущество: наиболее полная поддержка форматов, удобство для разработчиков (Python API/CLI).

Недостатки 🙅‍♀️: зависимость от внешних API, некоторые функции требуют платных моделей.

https://github.com/microsoft/markitdown

Llamaparse

Техническая архитектура: разработана для RAG, сочетает в себе Azure OpenAI и векторную базу данных KDB AI для оптимизации семантического поиска.

Особенности: разбор сложных PDF-файлов, содержащих таблицы/диаграммы, вывод диаграмм в формате Markdown/LaTeX/Mermaid, поддержка создания графов знаний, соответствие требованиям безопасности на уровне предприятия.

Сценарии применения: для анализа юридических документов, вопросов и ответов на технические руководства и других интеллектуальных приложений, которые необходимо объединить с LLM.

✅ Преимущество: высокая точность синтаксического анализа и поддержка семантической оптимизации полуструктурированных данных.

🙅‍♂️ Недостатки: низкая скорость обработки, ограниченное количество бесплатных кредитов, требуется ключ API.

https://docs.llamaindex.ai/en/stable/llama_cloud/llama_parse

База знаний по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.