AI分享圈

AI正在改变世界！

文章487 网址273 书籍0 软件0 评论0

已发布487

Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3（DA3）是字节跳动Seed团队研发开源的3D视觉重建模型。通过单一Transformer架构实现任意视角下的空间几何重建，仅需预测深度图和射线图即可还原三维场景，相比...

最新AI资源

8个月前

049K

DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2是幻方旗下AI公司DeepSeek开源的数学推理模型，最新版本基于DeepSeek-V3.2-Exp-Base改进，性能超越Gemini DeepThink，达到国际数...

最新AI资源

8个月前

040.6K

Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image是阿里通义实验室开源的图像生成模型，具有高效、快速和强大的图像生成能力。采用单流扩散Transformer架构（S3-DiT），将文本、视觉语义和图像VAE token整合为统一输入流...

最新AI资源

8个月前

064.5K

ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK（Reinforcement Open Construction Kit）是阿里巴巴开源的智能体训练环境沙箱，解决智能体在真实环境中无法规模化训练的难题。ROCK 提供了高稳定的沙箱管理服务...

最新AI资源

8个月前

043K

ViMax - 香港大学开源的多智能体视频生成框架

ViMax是香港大学数据科学实验室开源的多智能体视频生成框架，能实现从创意输入到视频输出的全流程自动化。整合了剧本生成、分镜设计、镜头规划和视频渲染等功能，支持用户通过自然语言描述生成连贯的影视级视频...

最新AI资源

8个月前

0113.1K

FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2是Black Forest Labs发布的开源图像生成与编辑模型，支持文生图、多图参考和图像编辑，具备更丰富的细节、清晰纹理和稳定光线。分为四个版本：FLUX.2 [pro]（媲美顶级闭源...

最新AI资源

8个月前

040.8K

Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B是微软开源发布的70亿参数规模的计算机操作代理（CUA）模型，基于Qwen2.5-VL-7B架构。通过视觉解析网页截图，在屏幕上执行点击、输入等操作，无需依赖额外的可访问性树或多个大模型...

最新AI资源

8个月前

046.1K

HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR是腾讯混元团队开源的高性能光学字符识别模型，参数量仅10亿。基于混元多模态架构开发，采用端到端设计，能高效处理文字检测、识别及文档解析任务。模型在复杂文档测试中得分94.1分，超越...

最新AI资源

8个月前

048.8K

Supertonic - 开源的高性能AI 文本转语音系统，极速离线运行

Supertonic是开源的高性能的文本转语音（TTS）系统，专注于在本地设备上快速生成语音。采用ONNX Runtime技术，可在手机、电脑甚至树莓派等设备上运行，支持23种语言和语音克隆，无需网络...

最新AI资源

8个月前

042.4K

MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied是小米集团开源的全球首个成功融合具身智能（Embodied AI）与自动驾驶的跨具身基础模型。解决具身智能与自动驾驶之间的知识迁移难题，实现两大领域的任务统一建模。

最新AI资源

8个月前

047.3K

加载更多