AI分享圈

AI正在改变世界!
Mistral 3 - Mistral AI发布开源的最新多模态大模型系列

Mistral 3 - Mistral AI发布开源的最新多模态大模型系列

Mistral 3是Mistral AI发布开源的最新多模态大模型系列,包含旗舰模型Mistral Large 3(675B总参数)和轻量版Ministral系列(3B/8B/14B),均支持图像理解...
6个月前
025.9K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2是字节跳动开源的第二代多模态视频理解与生成大模型,专注于视频内容的理解、分析和创作。支持文本、视频、音频三种模态的联合输入,能同时理解画面内容、声音信息以及自然语言指令,实现跨模态的交互与推...
6个月前
029.5K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1是英伟达研发的具有推理能力的视觉-语言-行动(VLA)模型,专为提升自动驾驶在复杂场景中的决策能力设计。通过引入因果链推理机制,让车辆能像人类驾驶员一样分析场景因果关系(如“因前...
6个月前
037.1K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image 是阿里巴巴国际数字商务集团 AIDC-AI 团队开源的 70 亿参数文生图模型,专注于高质量文本渲染。基于 Ovis-U1 架构,继承了先进的视觉解码器和双向 Token 精炼器...
6个月前
024.9K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

悟界·Emu3.5是北京智源人工智能研究院开源的多模态世界大模型,参数量达340亿,具备原生世界建模能力。通过10万亿多模态Token(含790年视频数据)训练,能模拟物理规律,实现图文生成、视觉指导...
6个月前
028.5K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero是阶跃团队开源的端侧多模态GUI Agent模型,基于Qwen3-VL-4B-Instruct基座模型构建,参数量为4B。能识别UI元素并执行点击、滑动等操作,支持跨应用任务处理...
6个月前
036.1K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3(DA3)是字节跳动Seed团队研发开源的3D视觉重建模型。通过单一Transformer架构实现任意视角下的空间几何重建,仅需预测深度图和射线图即可还原三维场景,相比...
6个月前
038K
DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2是幻方旗下AI公司DeepSeek开源的数学推理模型,最新版本基于DeepSeek-V3.2-Exp-Base改进,性能超越Gemini DeepThink,达到国际数...
6个月前
030.6K
Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image是阿里通义实验室开源的图像生成模型,具有高效、快速和强大的图像生成能力。采用单流扩散Transformer架构(S3-DiT),将文本、视觉语义和图像VAE token整合为统一输入流...
6个月前
052.6K
ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK(Reinforcement Open Construction Kit) 是阿里巴巴开源的智能体训练环境沙箱,解决智能体在真实环境中无法规模化训练的难题。ROCK 提供了高稳定的沙箱管理服务...
6个月前
028.6K