Step-GUI - 阶跃星辰开源的AI Agent系列模型
Step-GUI是阶跃星辰公司开源的AI Agent系列模型,包括云端模型Step-GUI、首个面向GUI Agent的MCP协议,以及业内首个支持手机部署的开源端侧模型Step-GUI Edge。专...
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议
A2UI(Agent-to-User Interface)是谷歌开源的Agent驱动型界面协议,解决AI代理生成复杂交互界面的难题。通过一种声明式JSON格式,让AI代理描述用户界面的结构,客户端应用...
SAM Audio - Meta推出的开源多模态音频分割模型
SAM Audio是Meta推出的开源多模态音频分割模型,从复杂的音频混合中精准分离出任意目标声音。通过结合文本、视觉和时间维度的提示,实现灵活、高效的音频处理,为音频编辑、去噪、声音提取等任务提供了...
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架
混元世界模型1.5(Tencent HY WorldPlay)是腾讯发布的业界首个开源的实时世界模型框架,涵盖数据、训练、流式推理部署等全链路。核心是WorldPlay自回归扩散模型,采用Next-F...
Molmo 2 - Ai2开源的多模态视频图像理解模型系列
Molmo 2是Allen Institute for AI(Ai2)发布的开源多模态模型,提升视频和多图像理解能力。包含三个变体:Molmo 2(8B)、Molmo 2(4B)和Molmo 2-O...
LongCat-Video-Avatar - 美团开源的虚拟人视频生成模型
LongCat-Video-Avatar 是美团开源的基于 LongCat-Video 构建的先进音频驱动视频生成模型,专注于生成超逼真、唇部同步且具有自然动态和一致身份的长视频。
MiMo-V2-Flash - 小米发布的开源MoE架构大模型
MiMo-V2-Flash是小米发布的开源MoE架构大模型,总参数3090亿,活跃参数150亿,主打高效推理和智能体应用。模型采用混合注意力架构与多词元预测技术,推理速度达150 tokens/秒,成...
Nemotron 3 - 英伟达发布的开源 AI 模型系列
Nemotron 3 是英伟达发布的开源 AI 模型系列,包含 Nano、Super 和 Ultra 三种规格。采用混合潜在专家混合(latent MoE)架构,显著提升推理效率并降低运行成本。其中...
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架
Wan-Move是阿里通义实验室、清华大学等机构联合开发的开源AI视频生成框架,专注于通过精准运动控制技术实现高质量视频合成。核心技术是"潜在轨迹引导",能在现有图像到视频模型基础上无缝添加点级运动控...
PaCoRe - 阶跃星辰开源的并行协同AI推理框架
PaCoRe(Parallel Coordinated Reasoning)是阶跃星辰(StepFun)开源的创新的并行协同推理框架,通过大规模并行思考机制,从多个角度同时探索问题解决方案,突破了传统...








