AI分享圈

每日分享最新AI产品、项目、框架、论文解读等~
Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型

Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型

Skywork UniPic 2.0 是昆仑万维开源的高效多模态模型,专注于图像生成、编辑与理解。模型基于 2B 参数的 SD3.5-Medium 架构,通过预训练、渐进式双任务强化策略和联合训练,实...
8个月前
045.1K
RynnRCP - 阿里达摩院推出的首个开源机器人上下文协议

RynnRCP - 阿里达摩院推出的首个开源机器人上下文协议

RynnRCP 是阿里达摩院开源的机器人上下文协议,能降低具身智能开发门槛并打通开发全流程。RynnRCP 包含 RCP 框架和 RobotMotion 模块。RCP 框架通过能力抽象和多协议支持,将...
8个月前
050.2K
RynnEC - 阿里达摩院开源的世界理解模型

RynnEC - 阿里达摩院开源的世界理解模型

RynnEC是阿里巴巴达摩院推出的世界理解模型,专注于具身智能任务。模型基于多模态融合技术,结合视频数据和自然语言,能从多个维度解析场景中的物体,支持物体理解、空间感知和视频目标分割等功能。
8个月前
051K
Matrix-3D - 昆仑万维开源的3D世界生成框架

Matrix-3D - 昆仑万维开源的3D世界生成框架

Matrix-3D 是昆仑万维 Skywork AI 团队推出的开源框架,专注于生成可探索的全景 3D 世界。框架结合全景视频生成与 3D 重建技术,能从单张图像或文本提示出发,生成高质量、全向可探索...
8个月前
051.6K
GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V是智谱推出的全球领先的开源视觉推理模型,总参数达1060亿,激活参数120亿。模型基于新一代文本基座模型GLM-4.5-Air训练而成,具备强大的视觉理解与推理能力,能处理图像、视频...
8个月前
050.7K
Genie 3 - 谷歌推出的通用世界模型

Genie 3 - 谷歌推出的通用世界模型

Genie 3 是谷歌 DeepMind 推出的新一代通用世界模型,支持实时生成高度动态且连贯的虚拟世界。Genie 3 能模拟物理现象、自然生态系统,还支持创建奇幻场景和历史场景。用文本提示,用户能...
8个月前
045.2K
Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 是 Anthropic 公司推出的先进大型语言模型,专为高效处理复杂任务而设计。模型在编程领域表现出色,能生成高质量代码,支持长达 32k 的单次输出,适应多种编程风格...
8个月前
045.1K
gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss是 OpenAI 推出的开源推理模型系列,支持为开发者提供高效、灵活且易于部署的 AI 解决方案。gpt-oss包含两个版本,gpt-oss-120B 拥有 1170 亿参数,支持在 8...
8个月前
043K
MiDashengLM - 小米开源的声音理解模型

MiDashengLM - 小米开源的声音理解模型

MiDashengLM 是小米开源的高效声音理解大模型,具体参数版本为MiDashengLM-7B ,专注于音频处理与理解。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omn...
8个月前
045K
MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD 是清华大学语音与语言实验室开发的开源口语对话语音生成模型。模型能将文本对话脚本转化为自然流畅且富有表现力的对话语音,支持中英文双语生成。
8个月前
047.8K