MinerU: извлечение и преобразование PDF-документов в мультимодальный формат Markdown, поддержка OCR-сканирования электронных книг
Всеобъемлющее введение MinerU - это инструмент извлечения данных с открытым исходным кодом, разработанный командой OpenDataLab в Шанхайской лаборатории искусственного интеллекта и предназначенный для эффективного извлечения содержимого из сложных PDF-документов, веб-страниц и электронных книг. Он способен извлекать мультимодальные PDF-файлы, содержащие изображения, формулы, таблицы и другие элементы...