新InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型
InternVLA-A1 是上海人工智能实验室开源的具身操作大模型。具备理解、想象、执行一体化的能力,能精准地完成任务。模型融合了真实和模拟的操作数据,通过大规模虚实混合场景资产,自动化构建海量多模态...
新VoxCPM - 面壁智能联合清华开源的端到端TTS模型
VoxCPM 是面壁智能与清华大学深圳国际研究生院联合开源的语音生成模型。VoxCPM 采用端到端的扩散自回归架构,直接从文本生成连续语音表示,突破了传统离散分词的局限。通过分层语言建模和有限状态量化...
新InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型
InternVLA·N1是上海人工智能实验室开源的端到端双系统导航大模型。采用双系统架构,系统2负责理解语言指令并规划长程路径,系统1专注于高频响应和敏捷避障。模型完全基于合成数据训练,通过大规模数字...
新VLAC - 上海AI Lab开源的具身奖励大模型
VLAC是上海人工智能实验室开源的具身奖励大模型。以InternVL多模态大模型为基础,融合互联网视频数据和机器人操作数据,为机器人在真实世界中的强化学习提供过程奖励和任务完成情况估计。VLAC能有效...
新InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”
InternVLA·M1 是上海人工智能实验室开源的具身操作“大脑”,是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环,负责高阶的空间推理与任务规划。模型采用两阶段训练策...
新PromptEnhancer - 腾讯混元开源的AI提示词增强工具
PromptEnhancer 是腾讯混元团队开源的提示词增强工具,提升文本到图像(Text-to-Image,T2I)模型的生成效果。通过链式推理(Chain-of-Thought,CoT)的方式对用...
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构
UnifoLM-WMA-0 是宇树科技开源的跨多类机器人本体的开源世界模型-动作架构,专为通用机器人学习而设计。由世界模型和动作架构组成,世界模型能理解机器人与环境的交互物理规律,动作架构则负责具体的...
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具
InfiniteTalk 是 MeiGen-AI 团队开发的音频驱动的视频生成工具,能根据输入的音频生成无限长度的会说话的视频。核心优势在于精准的唇形同步技术,能将音频与人物口型完美匹配,生成自然流畅...
ROMA - 开源的元Agent框架,自动分解复杂任务并行处理
ROMA(Recursive-Open-Meta-Agent)是Sentient AGI开发的开源元代理框架,通过递归任务分解和并行处理来高效解决复杂问题。支持Python 3.12+、Docker和...
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型
Lumina-DiMOO是上海人工智能实验室联合华为昇腾在2025年世界人工智能大会上推出的新一代多模态生成与理解统一模型。基于昇腾AI基础软硬件平台与MindSpeed MM多模态大模型套件,完成了...