dots.vlm1 - Маленькая красная книга hi lab с открытым исходным кодом мультимодальная большая модель

Что такое dots.vlm1?

dots.vlm1 - это первая мультимодальная макромодель, открыто распространяемая лабораторией Little Red Book hi. Основана на визуальном кодере NaViT с 1,2 миллиардами параметров, обученном с нуля, и DeepSeek V3 Large Language Model (LLM) с сильными возможностями визуального восприятия и текстовых рассуждений. Модель демонстрирует высокие результаты в задачах визуального восприятия и умозаключения, приближаясь к уровню закрытых моделей SOTA, и остается конкурентоспособной в текстовых задачах. Визуальный кодер dots.vlm1, NaViT, обучен полностью с нуля, поддерживает динамическое разрешение и добавляет чисто визуальный контроль к текстовому контролю для улучшения перцептивных возможностей. В обучающих данных представлены различные идеи синтетических данных, охватывающие разнообразные типы изображений и их описания для улучшения качества данных.

dots.vlm1 - 小红书hi lab开源的多模态大模型

Основные функции dots.vlm1

  • Сильное визуальное восприятие: Точное распознавание и понимание содержания изображений, включая сложные диаграммы, таблицы, документы, графики и т. д., и поддержка динамического разрешения для широкого спектра визуальных задач.
  • Эффективная генерация и осмысление текста: Основанный на DeepSeek V3 LLM, он генерирует высококачественные текстовые описания и отлично справляется с задачами текстового рассуждения, такими как математика и код.
  • Мультимодальная обработка данных: Он поддерживает обработку данных с графическим и текстовым чередованием и может объединять визуальную и текстовую информацию для комплексных рассуждений, что подходит для мультимодальных сценариев применения.
  • Гибкая адаптация и расширениеАдаптер MLP соединяет визуальный кодер с языковой моделью, что позволяет гибко адаптировать и расширять ее для различных задач.
  • Открытый исходный код и открытость: Предоставление полного открытого кода и моделей для поддержки разработчиков в их исследованиях и разработке приложений, а также для содействия развитию мультимодальных технологий.

Адрес проекта dots.vlm1

  • Репозиторий GitHub:: https://github.com/rednote-hilab/dots.vlm1
  • Библиотека моделей обнимающихся лиц:: https://huggingface.co/rednote-hilab/dots.vlm1.inst
  • Демонстрация опыта работы в режиме онлайн:: https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo

Технические принципы dots.vlm1

  • Визуальный кодировщик NaViT: dots.vlm1 использует NaViT, визуальный кодер с 1,2 миллиардами параметров, обученный с нуля, а не доработанный на основе существующих зрелых моделей. Встроенная поддержка динамического разрешения позволяет работать с изображениями разного разрешения, а чисто визуальный контроль добавляется к текстовому контролю для улучшения восприятия изображений моделью.
  • Обучение мультимодальным данным: Модель использует разнообразные мультимодальные учебные данные, включая обычные изображения, сложные диаграммы, таблицы, документы, графики и т. д., а также соответствующие текстовые описания (например, Alt Text, Dense Caption, Grounding и т. д.). Для повышения качества данных путем их переписывания и очистки, а также для улучшения способности модели к мультимодальному восприятию вводятся идеи синтетических данных и графико-текстовых чередующихся данных, таких как веб-страницы и PDF-файлы.
  • Слияние визуальных и лингвистических моделейdots.vlm1 сочетает в себе визуальный кодер и большую языковую модель (LLM) DeepSeek V3, соединенные через легкий MLP-адаптер, что позволяет эффективно объединять визуальную и лингвистическую информацию для поддержки обработки мультимодальных задач.
  • Трехфазный процесс обучения: Обучение модели разделено на три этапа: предварительное обучение визуального кодера, предварительное обучение VLM и посттренировочное обучение VLM. Способность модели к обобщению и обработке мультимодальных задач повышается за счет постепенного увеличения разрешения изображения и введения разнообразных обучающих данных.

Основные преимущества dots.vlm1

  • Визуальный кодер, обученный с нуля: Визуальный кодер NaViT, обученный полностью с нуля, с встроенной поддержкой динамического разрешения и чисто визуальным контролем, повышающий верхнюю границу визуального восприятия.
  • Инновации в области мультимодальных данных: Введение различных идей синтетических данных, охватывающих различные типы изображений и их описания, а также переписывание данных веб-страниц с помощью мультимодальной макромодели значительно улучшает качество обучающих данных.
  • Производительность около SOTA: Достигнута производительность, близкая к производительности закрытых моделей SOTA в визуальном восприятии и рассуждениях, что устанавливает новый верхний предел производительности для открытых моделей визуального языка.
  • Мощные текстовые возможности: Хорошо справляется с текстовыми задачами на рассуждение, имеет некоторые математические навыки и навыки кодирования, при этом остается конкурентоспособным в задачах с обычным текстом.
  • Гибкий архитектурный дизайнАдаптер MLP соединяет визуальный кодер с языковой моделью, что позволяет гибко адаптировать и расширять ее для различных задач.

Люди, для которых предназначен dots.vlm1

  • Исследователи искусственного интеллекта: Интересуется мультимодальным макромоделированием и хотел бы изучить его применение и совершенствование в области зрения и обработки языка.
  • Разработчики и инженеры: Необходимость интеграции в проекты мультимодальных функций, таких как распознавание изображений, генерация текста, визуальные рассуждения и т. д.
  • педагог: Модель можно использовать для обучения и помочь студентам лучше понимать и анализировать сложные диаграммы, документы и другие материалы.
  • создатель контента: Необходимость генерировать высококачественный графический контент или создавать рекомендации по содержанию и персонализированные творения.
  • бизнес-пользователь: В бизнес-сценариях, где требуется обработка мультимодальных данных, таких как интеллектуальное обслуживание клиентов, рекомендация контента, анализ данных и т. д., можно использовать модели для повышения эффективности и результативности.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...