MinerU: Extraktion und Konvertierung von PDF-Dokumenten in das multimodale Markdown-Format, Unterstützung von OCR-Scans für E-Books
Umfassende Einführung MinerU ist ein Open-Source-Tool zur Datenextraktion, das vom OpenDataLab-Team am Shanghai Artificial Intelligence Laboratory entwickelt wurde und sich auf die effiziente Extraktion von Inhalten aus komplexen PDF-Dokumenten, Webseiten und eBooks konzentriert. Es ist in der Lage, multimodale PDFs zu verarbeiten, die Bilder, Formeln, Tabellen und andere Elemente enthalten...