Dolphin - легкая модель парсинга документов Wordpress с открытым исходным кодом

Что такое дельфин?

Dolphin - это легкая модель парсинга документов с открытым исходным кодом, с 322M параметрами, небольшим размером и высокой скоростью работы. Модель основана на двухступенчатом подходе к разбору, на основе анализа макета на уровне страницы для определения элементов документа (таких как заголовки, таблицы, формулы и т.д.), а затем каждый элемент анализа содержания, модель поддерживает извлечение текста, формул, таблиц и других элементов, поддержка вывода JSON, Markdown, HTML формат и т.д. Dolphin применяется для академических исследований, коммерческих офисов, образования, разработки технологий и т.д. Dolphin подходит для академических исследований, коммерческих офисов, образования, разработки технологий и т.д. Dolphin может эффективно обрабатывать научные работы, деловые отчеты, технические документы и т.д., помогать оцифровывать документы и извлекать информацию, а также повышать эффективность работы офиса.

Dolphin - 字节跳动开源的轻量级文档解析大模型

Основные характеристики Dolphin

  • Анализ макетаТочно определяет заголовки, диаграммы, таблицы, сноски и другие элементы в документе и создает четкую последовательность элементов, основанную на естественном порядке чтения, закладывая основу для последующего разбора содержимого.
  • извлечение содержимого: Парсинг страниц документов в структурированный формат JSON или Markdown для последующей обработки и представления.
  • синтаксический анализ текста: Точное извлечение текстового содержимого из документов на китайском, английском и многих других языках.
  • распознавание формул: Поддерживает распознавание сложных формул на уровне строк и блоков и выводит их в формат LaTeX для удобства работы с академическими и техническими документами.
  • анализ таблицыПоддержка разбора сложных табличных структур и извлечения содержимого ячеек для создания таблиц в формате HTML, отвечающих требованиям различных сценариев применения.
  • Легкая архитектураМодель имеет референсный номер 322M, она небольшая и быстрая, и подходит для использования в устройствах и средах с ограниченными ресурсами.
  • Множество входов и выходовОн поддерживает ввод различных образов документов, таких как научные статьи, деловые отчеты, технические документы и т.д. Результаты разбора могут быть выведены в форматах JSON, Markdown, HTML и других, что удобно для интеграции с различными системами.

Адрес официального сайта Дельфина

Как использовать Dolphin

  • Демонстрация опыта работы в режиме онлайнПосетив демонстрационный адрес Dolphin online experience, пользователь напрямую загружает изображения документов для анализа, без необходимости устанавливать или настраивать какую-либо среду.
  • Развертывание репозитория GitHub::
    • склад клонов::
git clone https://github.com/bytedance/Dolphin.git
cd Dolphin
    • Установка зависимостей::
pip install -r requirements.txt
    • Загрузите предварительно обученную модель: Загрузите и распакуйте файлы предварительно обученной модели в соответствии с инструкциями в репозитории GitHub.
    • работающий код: Запустите Dolphin, следуя образцу кода в репозитории:
from dolphin import DolphinParser

parser = DolphinParser(model_path="path/to/model")
result = parser.parse(image_path="path/to/document.jpg")
print(result)
  • Библиотека моделей обнимающихся лиц::
    • Установка библиотеки "Обнимающиеся лица::
pip install transformers
    • Модели для погрузки::
from transformers import AutoModelForDocumentParsing, AutoFeatureExtractor

model_name = "ByteDance/Dolphin"
model = AutoModelForDocumentParsing.from_pretrained(model_name)
feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)

# 加载文档图像并进行预处理
image = feature_extractor(images="path/to/document.jpg", return_tensors="pt")

# 进行解析
outputs = model(**image)
# 处理输出结果
    • Обработка результатов вывода: Дальнейшая обработка и использование результатов парсинга в зависимости от формата вывода модели (например, JSON, HTML и т. д.).

Основные преимущества Dolphin

  • Легкий и эффективныйРазмер Dolphin составляет всего 322 Мб, он маленький и быстрый, подходит для сред с ограниченными ресурсами.
  • Двухэтапный подход к разбору: Парсинг макета перед содержимым, основанный на параллельной обработке для повышения эффективности и точности.
  • Мощный синтаксический анализ документов: Поддерживает разбор текста, таблиц, формул, диаграмм и других элементов, охватывая сложные структуры документов.
  • Поддержка нескольких языков: Точное распознавание китайского, английского и других многоязычных текстов для удовлетворения потребностей в обработке многоязычных документов.
  • Разнообразные входы и выходы: Совместимость с различными форматами документов на входе, поддержка JSON, Markdown, HTML и других форматов на выходе, простота интеграции.
  • Открытый исходный код и простота использования: Код и предварительно обученные модели имеют открытый исходный код и предоставляют разработчикам богатые ресурсы для быстрого начала работы и адаптации своих разработок.
  • Высокая производительность: Превосходит основные модели, такие как GPT-4.1 и Mistral-OCR, в задачах синтаксического анализа документов, а также превосходит их в распознавании таблиц и формул.

Для кого предназначен Dolphin

  • научный сотрудник: Быстрый разбор текста, формул и диаграмм в научных статьях, помогающий исследователям эффективно организовывать литературу и извлекать ключевую информацию для ускорения научной работы.
  • Сотрудники корпоративного офисаБизнесмены извлекают ключевую информацию из договоров, отчетов и других деловых документов, чтобы помочь в проверке договоров и составлении отчетов, а также повысить эффективность работы офиса.
  • педагогПреподаватели и учебные заведения используют Dolphin для оцифровки учебных материалов и контрольных работ, поддержки онлайн-обучения и многоязычия, а также для обогащения учебных ресурсов.
  • Разработчик технологий: Разработчики анализируют техническую документацию, чтобы облегчить управление кодом и технический обмен, а также вторичную разработку и кастомизацию на основе открытого исходного кода.
  • школьники: Студенты быстро организуют учебные материалы и извлекают ключевые моменты для облегчения обучения и пересмотра.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...