dots.vlm1 - 小红书hi lab开源的多模态大模型

dots.vlm1是什么

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型(LLM),具备强大的视觉感知和文本推理能力。模型在视觉理解和推理任务上表现出色,接近闭源 SOTA 模型水平,在文本任务上也保持了竞争力。dots.vlm1 的视觉编码器 NaViT 完全从零开始训练,原生支持动态分辨率,在文本监督基础上增加了纯视觉监督,提升了感知能力。训练数据引入了多种合成数据思路,覆盖多样的图片类型及其描述,提升数据质量。

dots.vlm1 - 小红书hi lab开源的多模态大模型

dots.vlm1的主要功能

  • 强大的视觉理解能力:能准确识别和理解图像中的内容,包括复杂图表、表格、文档、图形等,支持动态分辨率,适用于多种视觉任务。
  • 高效的文本生成与推理:基于 DeepSeek V3 LLM,能生成高质量的文本描述,在数学、代码等文本推理任务中表现出色。
  • 多模态数据处理:支持图文交错的数据处理,能结合视觉和文本信息进行综合推理,适用于多模态应用场景。
  • 灵活的适配与扩展:通过轻量级 MLP 适配器连接视觉编码器和语言模型,方便在不同任务中进行灵活适配和扩展。
  • 开源与开放性:提供完整的开源代码和模型,支持开发者进行研究和应用开发,推动多模态技术的发展。

dots.vlm1的项目地址

  • GitHub仓库:https://github.com/rednote-hilab/dots.vlm1
  • Hugging Face模型库:https://huggingface.co/rednote-hilab/dots.vlm1.inst
  • 在线体验Demo:https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo

dots.vlm1的技术原理

  • NaViT 视觉编码器:dots.vlm1 使用从零开始训练的 12 亿参数视觉编码器 NaViT,非基于现有成熟模型微调。原生支持动态分辨率,能处理不同分辨率的图像输入,在文本监督的基础上增加了纯视觉监督,提升了模型对图像的感知能力。
  • 多模态数据训练:模型采用了多样化的多模态训练数据,包括普通图像、复杂图表、表格、文档、图形等,以及对应的文本描述(如 Alt Text、Dense Caption、Grounding 等)。引入了合成数据思路和网页、PDF 等图文交错数据,通过重写和清洗提升数据质量,增强模型的多模态理解能力。
  • 视觉与语言模型融合:dots.vlm1 将视觉编码器与 DeepSeek V3 大语言模型(LLM)相结合,通过轻量级 MLP 适配器进行连接,实现视觉信息与语言信息的有效融合,支持多模态任务的处理。
  • 三阶段训练流程:模型的训练分为三个阶段:视觉编码器预训练、VLM 预训练和 VLM 后训练。通过逐步提升图像分辨率和引入多样化的训练数据,增强模型的泛化能力和多模态任务处理能力。

dots.vlm1的核心优势

  • 从零训练的视觉编码器:完全从零开始训练的 NaViT 视觉编码器,具备原生动态分辨率支持和纯视觉监督能力,提升了视觉感知的上限。
  • 多模态数据创新:引入多种合成数据思路,覆盖多样的图片类型及其描述,同时利用多模态大模型重写网页数据,显著提升了训练数据的质量。
  • 接近 SOTA 的性能:在视觉感知与推理方面达到接近闭源 SOTA 模型的表现,为开源视觉语言模型树立了新的性能上限。
  • 强大的文本能力:在文本推理任务中表现出色,具备一定的数学和代码能力,同时在纯文本任务中保持竞争力。
  • 灵活的架构设计:通过轻量级 MLP 适配器连接视觉编码器和语言模型,方便在不同任务中进行灵活适配和扩展。

dots.vlm1的适用人群

  • 人工智能研究人员:对多模态大模型感兴趣,希望探索其在视觉和语言处理领域的应用和改进。
  • 开发者和工程师:需要在项目中集成多模态功能,如图像识别、文本生成、视觉推理等。
  • 教育工作者:可以利用该模型辅助教学,帮助学生更好地理解和分析复杂的图表、文档等内容。
  • 内容创作者:需要生成高质量的图文内容,或者进行内容推荐和个性化创作。
  • 企业用户:在需要处理多模态数据的业务场景中,如智能客服、内容推荐、数据分析等,可以用模型提升效率和效果。
© 版权声明
AiPPT

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...