AI分享圈

AI正在改变世界!
Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview是蚂蚁集团inclusionAI发布的开源全模态大模型,参数规模达千亿,基于Ling 2.0的稀疏MoE架构,总参数103B,激活9B。在全模态理解和生成...
5个月前
031.9K
OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci 是 NVIDIA 开发的开源全模态大型语言模型,通过架构革新和数据优化解决多模态模型中的模态割裂问题。通过 OmniAlignNet 加强视觉和音频嵌入的对齐,利用时间嵌入分组捕捉...
5个月前
031.5K
olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2是Allen Institute for Artificial Intelligence(AI2)开源的多模态文档解析模型,是olmOCR的升级版本。将数字化的打印文档(如 PDF)高...
5个月前
037.7K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作

ValueCell - 开源的多智能体金融平台,多个Agent分工协作

ValueCell是开源的多智能体金融应用平台,通过AI技术提升金融分析和投资管理的效率。模拟专业投资团队,多个AI智能体分工协作,涵盖市场分析、情绪分析、基本面研究、自动交易等功能,为用户提供全面的...
5个月前
056.9K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic是原力灵机(Dexmal)开源的具身智能视觉-语言-动作(VLA)模型一站式科研服务平台,解决具身智能领域研究碎片化、效率低等问题。以 PyTorch 为基础,为具身智能领域的研究和开...
5个月前
029K
LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video是美团LongCat团队开源的13.6亿参数视频生成模型,采用MIT开源协议,支持文生视频、图生视频和视频续写三大任务。模型通过"粗到细"生成策略和块稀疏注意力机制,能在数分...
5个月前
050.5K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2是港科大贾佳亚团队开源的多模态AI图像编辑与生成模型。能同时处理文本和图像指令,支持多张参考图,为创作者提供更灵活的创作方式。模型采用三阶段数据合成流程进行训练,联合训练生成/编辑...
5个月前
035.3K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

混元世界模型1.1(WorldMirror)是腾讯混元团队发布的开源3D重建大模型,是混元世界模型系列的升级版本。支持多视图图像、视频以及相机位姿、内参、深度图等多模态先验输入,突破了传统3D重建仅依...
5个月前
034.7K
DeepSeek-OCR - DeepSeek开源的光学字符识别模型

DeepSeek-OCR - DeepSeek开源的光学字符识别模型

DeepSeek-OCR 是 DeepSeek 团队开源的先进光学字符识别(OCR)模型,通过“上下文光学压缩”技术,将文本转换为图像,利用视觉 token 进行压缩和解码,实现高效长文本处理。
5个月前
040K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench是美团LongCat团队发布的首个面向复杂生活场景的交互式Agent评测基准,评估大模型智能体在真实生活场景中的综合能力。以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为载体,构建包...
5个月前
031.6K