Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型
Ming-flash-omni-Preview是蚂蚁集团inclusionAI发布的开源全模态大模型,参数规模达千亿,基于Ling 2.0的稀疏MoE架构,总参数103B,激活9B。在全模态理解和生成...
OmniVinci - NVIDIA开源的全模态大语言模型
OmniVinci 是 NVIDIA 开发的开源全模态大型语言模型,通过架构革新和数据优化解决多模态模型中的模态割裂问题。通过 OmniAlignNet 加强视觉和音频嵌入的对齐,利用时间嵌入分组捕捉...
olmOCR 2 - AI2开源的多模态文档解析模型
olmOCR 2是Allen Institute for Artificial Intelligence(AI2)开源的多模态文档解析模型,是olmOCR的升级版本。将数字化的打印文档(如 PDF)高...
ValueCell - 开源的多智能体金融平台,多个Agent分工协作
ValueCell是开源的多智能体金融应用平台,通过AI技术提升金融分析和投资管理的效率。模拟专业投资团队,多个AI智能体分工协作,涵盖市场分析、情绪分析、基本面研究、自动交易等功能,为用户提供全面的...
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台
Dexbotic是原力灵机(Dexmal)开源的具身智能视觉-语言-动作(VLA)模型一站式科研服务平台,解决具身智能领域研究碎片化、效率低等问题。以 PyTorch 为基础,为具身智能领域的研究和开...
LongCat-Video - 美团LongCat开源的视频生成模型
LongCat-Video是美团LongCat团队开源的13.6亿参数视频生成模型,采用MIT开源协议,支持文生视频、图生视频和视频续写三大任务。模型通过"粗到细"生成策略和块稀疏注意力机制,能在数分...
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型
DreamOmni2是港科大贾佳亚团队开源的多模态AI图像编辑与生成模型。能同时处理文本和图像指令,支持多张参考图,为创作者提供更灵活的创作方式。模型采用三阶段数据合成流程进行训练,联合训练生成/编辑...
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型
混元世界模型1.1(WorldMirror)是腾讯混元团队发布的开源3D重建大模型,是混元世界模型系列的升级版本。支持多视图图像、视频以及相机位姿、内参、深度图等多模态先验输入,突破了传统3D重建仅依...
DeepSeek-OCR - DeepSeek开源的光学字符识别模型
DeepSeek-OCR 是 DeepSeek 团队开源的先进光学字符识别(OCR)模型,通过“上下文光学压缩”技术,将文本转换为图像,利用视觉 token 进行压缩和解码,实现高效长文本处理。
VitaBench - 美团LongCat开源的交互式Agent评测基准
VitaBench是美团LongCat团队发布的首个面向复杂生活场景的交互式Agent评测基准,评估大模型智能体在真实生活场景中的综合能力。以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为载体,构建包...









