AI分享圈

AI正在改变世界!
Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image是阿里通义实验室开源的图像生成模型,具有高效、快速和强大的图像生成能力。采用单流扩散Transformer架构(S3-DiT),将文本、视觉语义和图像VAE token整合为统一输入流...
4个月前
049.8K
ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK(Reinforcement Open Construction Kit) 是阿里巴巴开源的智能体训练环境沙箱,解决智能体在真实环境中无法规模化训练的难题。ROCK 提供了高稳定的沙箱管理服务...
4个月前
026.9K
ViMax - 香港大学开源的多智能体视频生成框架

ViMax - 香港大学开源的多智能体视频生成框架

ViMax是香港大学数据科学实验室开源的多智能体视频生成框架,能实现从创意输入到视频输出的全流程自动化。整合了剧本生成、分镜设计、镜头规划和视频渲染等功能,支持用户通过自然语言描述生成连贯的影视级视频...
4个月前
044K
FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2是Black Forest Labs发布的开源图像生成与编辑模型,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源...
4个月前
026.2K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B是微软开源发布的70亿参数规模的计算机操作代理(CUA)模型,基于Qwen2.5-VL-7B架构。通过视觉解析网页截图,在屏幕上执行点击、输入等操作,无需依赖额外的可访问性树或多个大模型...
4个月前
031.7K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR是腾讯混元团队开源的高性能光学字符识别模型,参数量仅10亿。基于混元多模态架构开发,采用端到端设计,能高效处理文字检测、识别及文档解析任务。模型在复杂文档测试中得分94.1分,超越...
4个月前
033.1K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic是开源的高性能的文本转语音(TTS)系统,专注于在本地设备上快速生成语音。采用ONNX Runtime技术,可在手机、电脑甚至树莓派等设备上运行,支持23种语言和语音克隆,无需网络...
4个月前
027.5K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied是小米集团开源的全球首个成功融合具身智能(Embodied AI)与自动驾驶的跨具身基础模型。解决具身智能与自动驾驶之间的知识迁移难题,实现两大领域的任务统一建模。
4个月前
032.7K
MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech是复旦大学邱锡鹏教授团队开源的语音到语音(Speech-to-Speech)大模型。突破传统语音处理方式,无需文本引导,直接对语音进行理解和生成,能捕捉语调、情绪等非文字要素,使...
4个月前
028.1K
Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax是分布式AI实验室Gradient开源的全球首个“全自主AI操作系统”。支持在Mac、Windows等异构设备上跨平台部署大模型,让用户完全掌控模型、数据与AI记忆。系统内置网络感知分...
4个月前
083.8K