最新AI资源

共 3100 篇文章
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate是通义万相开源的动作生成模型,支持动作模仿和角色扮演两种模式。用户只需输入一张角色图片和一段参考视频,模型能将视频中角色的动作、表情迁移到图片角色中,赋予图片角色动态表现力...
7个月前
040.1K
CWM - Meta FAIR开源的代码世界语言模型

CWM - Meta FAIR开源的代码世界语言模型

CWM(Code World Model)是Meta FAIR团队发布的一款320亿参数的开源代码世界语言模型,专为代码生成和推理设计。引入“世界模型”概念,能模拟代码执行过程,预测变量状态变化,提前...
7个月前
039.5K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - 上海AI Lab开源的具身奖励大模型

VLAC是上海人工智能实验室开源的具身奖励大模型。以InternVL多模态大模型为基础,融合互联网视频数据和机器人操作数据,为机器人在真实世界中的强化学习提供过程奖励和任务完成情况估计。VLAC能有效...
7个月前
036.8K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio是Meta推出的开源多模态音频分割模型,从复杂的音频混合中精准分离出任意目标声音。通过结合文本、视觉和时间维度的提示,实现灵活、高效的音频处理,为音频编辑、去噪、声音提取等任务提供了...
4个月前
036.2K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM 是智谱AI开源的具有“手机使用”能力的智能体模型,能通过多模态感知理解手机屏幕内容,自动生成操作流程来完成用户指定的任务。用户只需用自然语言描述需求,如“打开美团搜索附近的火锅...
5个月前
035.8K
MedASR - 谷歌开源的医疗语音识别模型

MedASR - 谷歌开源的医疗语音识别模型

MedASR是谷歌开源的1.05亿参数医疗语音识别模型,在5000小时脱敏临床语料上微调,针对药品、剂量、解剖术语优化,内置6-gram医学语言模型,在私有放射科数据集RAD-DICT上词错率仅4.6...
4个月前
035.3K