Megrez-3B-Omni：端侧多模态理解模型，支持文本、图像、音频多模态理解和分析

1.9K 00

综合介绍

Infini-Megrez是由无问芯穹（Infinigence AI）开发的边缘智能解决方案，旨在通过软硬件协同设计，实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型，支持图像、文本和音频的综合理解，具有高准确性和快速推理能力。Megrez-3B模型在多个主流基准测试中表现优异，适用于场景理解、光学字符识别（OCR）等任务。该项目提供了完整的部署代码，方便开发者在各种平台上进行应用。

Megrez-3B-Omni：端侧多模态理解模型，支持文本、图像、音频多模态理解和分析

功能列表

图像理解：利用SigLip-400M构建图像标记，在MME、MMVet、OCRBench等基准测试中表现出色。
语言理解：保持卓越的文本理解能力，在C-EVAL、MMLU等基准测试中表现优异。
语音理解：支持中英文语音输入，多轮对话和语音指令响应。
快速推理：通过软硬件协同设计，实现高达300%的推理速度提升。
易于使用：采用经典的LLaMA结构，便于开发者在各种平台上部署。
丰富应用：提供全栈WebSearch解决方案，自动判断搜索调用时机，提供更好的摘要结果。

使用帮助

安装流程

克隆仓库：在终端中运行以下命令克隆Infini-Megrez仓库：

   git clone https://github.com/infinigence/Infini-Megrez.git

安装依赖：进入项目目录并安装所需依赖：

   cd Infini-Megrez
pip install -r requirements.txt

下载模型：根据README文件中的指引下载所需的模型文件，并将其放置在指定目录。

使用指南

图像理解：
- 将图像文件放置在指定目录。
- 运行图像理解脚本：
```
 python image_understanding.py --input_dir ./images
```
- 查看输出结果，包含图像标记和分析结果。
语言理解：
- 将文本文件放置在指定目录。
- 运行语言理解脚本：
```
 python text_understanding.py --input_dir ./texts
```
- 查看输出结果，包含文本分析和理解结果。
语音理解：
- 将音频文件放置在指定目录。
- 运行语音理解脚本： bash python speech_understanding.py --input_dir ./audios
- 查看输出结果，包含语音转文本和分析结果。

特色功能操作流程

多模态理解：
- 将图像、文本和音频文件分别放置在对应目录。
- 运行多模态理解脚本：
```
 python multimodal_understanding.py --image_dir ./images --text_dir ./texts --audio_dir ./audios
```
- 查看综合分析结果，包含图像、文本和语音的联合理解和分析。
WebSearch解决方案：
- 配置WebSearch模块，确保网络连接正常。
- 运行WebSearch脚本： bash python websearch.py --query "输入查询内容"
- 查看搜索结果和摘要，系统会自动判断是否需要调用搜索功能，并提供优化的摘要结果。

通过以上步骤，用户可以全面了解和使用Infini-Megrez的各项功能，实现高效的多模态理解和分析。