苹果研究人员刚刚发表了一篇新论文,介绍了MM1,这是一个多模态人工智能模型系列,将视觉和语言理解结合起来,以实现高级功能。
细节:
MM1模型在精心策划的图像标题、图像文本数据和纯文本数据的混合上进行训练。
最大的30B参数模型显示出从少量示例中学习并推断出多幅图像的强大能力。
研究发现
缩放模型的图像处理对性能的影响最大。
MM1的基准测试与GPT-4V和Gemini Pro等最先进的多模态模型竞争。
关注理由:苹果对新机型的细节处理和低调发布与其一贯的保密风格大相径庭,也是开源软件的一大胜利。 现在,一个功能强大的新机型正式面世了,Siri是不是终于可以升级了?