Molmo：Ai2构建的一系列多模态开放语言模型

2.7K 00

综合介绍

Molmo 是由 Allen Institute for AI (Ai2) 开发的一款多模态开放语言模型。该模型结合了文本和视觉数据处理能力，能够识别图像中的物体并生成准确的描述。Molmo 在多个基准测试中表现优异，特别是在文档阅读和视觉推理等复杂任务中，展现了其强大的能力。Ai2 已经在 Hugging Face 上发布了这些模型和数据集，并计划在未来几个月推出更多模型和扩展技术报告，旨在为研究者提供更多资源，了解更多细节请点击技术报告。

Molmo 的关键创新在于其使用了全新的图像描述数据集，模型在 PixMo 上进行训练，PixMo 是一个包含 100 万个高度精选的图像-文本对的数据集。这些数据集完全由人类注释员通过语音描述收集。此外，Molmo 还引入了多样化的数据集混合进行微调，包括创新的二维指点数据，使得 Molmo 能够不仅使用自然语言回答问题，还能使用非语言提示。

Molmo基于Qwen2-72B，使用OpenAI的CLIP作为视觉骨干，增强了模型处理图像和文本的能力。

Molmo-72B：在学术基准测试中取得了最高分，在人工评估中排名第二，仅略低于 GPT-4o。也优于几个最先进的专有系统，包括 Gemini 1.5 Pro、Flash 和 Claude 3.5 Sonnet。 MolmoE-1B：最高效的Molmo模型，基于我们完全开放的 OLMoE-1B-7B 混合专家 LLM，在学术基准和人工评估中几乎与 GPT-4V 的性能相当。两个Molmo-7B 模型：在学术基准和人工评估中的表现都介于 GPT-4V 和 GPT-4o 之间，并且在两个基准测试中都明显优于最近发布的 Pixtral 12B 模型。

开放更多权重和数据模型

功能列表

图像识别：能够识别图像中的物体并生成描述。
文本生成：根据输入的文本或图像生成相关的文本描述。
多模态数据处理：结合文本和视觉数据进行复杂任务处理。
开源资源：提供模型和数据集的开源资源，供研究者使用。
在线演示：提供在线演示功能，用户可以上传图像并生成描述。

使用帮助

使用指南

图像识别：在网站首页点击“上传图像”按钮，选择要识别的图像文件。上传完成后，系统会自动生成图像描述。
文本生成：在文本框中输入要生成描述的文本或问题，点击“生成”按钮，系统会根据输入内容生成相关的文本描述。
多模态数据处理：用户可以同时上传图像和文本，系统会结合两者进行处理，并生成综合描述。
开源资源：访问 Hugging Face 平台，搜索 Molmo 模型，下载并使用提供的开源资源。
在线演示：在网站首页点击“在线演示”按钮，进入演示页面。用户可以上传图像或输入文本，实时体验 Molmo 的功能。

功能操作流程

图像识别：
- 打开 Molmo 网站，点击“上传图像”按钮。
- 选择要识别的图像文件，点击“上传”。
- 等待系统处理，生成图像描述。
- 查看并保存生成的描述。
文本生成：
- 在文本框中输入要生成描述的文本或问题。
- 点击“生成”按钮，等待系统处理。
- 查看生成的文本描述，并根据需要进行编辑或保存。
多模态数据处理：
- 同时上传图像和文本，点击“处理”按钮。
- 系统会结合图像和文本进行处理，生成综合描述。
- 查看并保存生成的综合描述。
开源资源使用：
- 访问 Hugging Face 平台，搜索 Molmo 模型。
- 下载模型和数据集，按照说明进行安装和使用。
- 使用提供的示例代码和文档，进行二次开发或研究。