AIシェアリングサークル

AIは世界を変えようとしている!
Fara-7B - 微软开源的计算机操作Agent助手模型

中項Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B是微软开源发布的70亿参数规模的计算机操作代理(CUA)模型,基于Qwen2.5-VL-7B架构。通过视觉解析网页截图,在屏幕上执行点击、输入等操作,无需依赖额外的可访问性树或多个大模型...
8時間前
01.5K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

中項HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR是腾讯混元团队开源的高性能光学字符识别模型,参数量仅10亿。基于混元多模态架构开发,采用端到端设计,能高效处理文字检测、识别及文档解析任务。模型在复杂文档测试中得分94.1分,超越...
10時間前
01.7K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

中項Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic是开源的高性能的文本转语音(TTS)系统,专注于在本地设备上快速生成语音。采用ONNX Runtime技术,可在手机、电脑甚至树莓派等设备上运行,支持23种语言和语音克隆,无需网络...
1日前
02.7K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied是小米集团开源的全球首个成功融合具身智能(Embodied AI)与自动驾驶的跨具身基础模型。解决具身智能与自动驾驶之间的知识迁移难题,实现两大领域的任务统一建模。
3日前
06.7K
MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech是复旦大学邱锡鹏教授团队开源的语音到语音(Speech-to-Speech)大模型。突破传统语音处理方式,无需文本引导,直接对语音进行理解和生成,能捕捉语调、情绪等非文字要素,使...
4日前
06.8K
Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax是分布式AI实验室Gradient开源的全球首个“全自主AI操作系统”。支持在Mac、Windows等异构设备上跨平台部署大模型,让用户完全掌控模型、数据与AI记忆。系统内置网络感知分...
4日前
07.5K
HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

HunyuanVideo 1.5 是腾讯混元大模型团队开源的轻量级视频生成模型,基于 Diffusion Transformer(DiT)架构,参数量为 8.3B。支持生成 5-10 秒的高清视频,分...
4日前
08.6K
Awex - 蚂蚁集团开源的高性能权重交换框架

Awex - 蚂蚁集团开源的高性能权重交换框架

Awex是蚂蚁集团开源的高性能权重交换框架,专为强化学习中的大规模参数同步设计。能在秒级完成TB级参数交换,显著提升训练推理效率。Awex具备极速同步性能,在千卡集群上,万亿参数模型可在6秒内完成全量...
5日前
07K
Seekdb - 蚂蚁OceanBase开源的AI原生混合搜索数据库

Seekdb - 蚂蚁OceanBase开源的AI原生混合搜索数据库

Seekdb(OceanBase Seekdb)是蚂蚁OceanBase开源的 AI 原生混合搜索数据库,支持向量、全文、标量及地理空间数据的统一混合搜索,采用多阶段检索机制,实现低延迟下的高精度搜索...
5日前
08.3K
LoopTool - 上海交大联合小红书开源的自动化工具调用数据进化框架

LoopTool - 上海交大联合小红书开源的自动化工具调用数据进化框架

LoopTool是上海交通大学与小红书团队开源的自动化的工具调用数据进化框架,专为提升大语言模型的工具调用能力设计。通过闭环迭代优化数据生成与模型训练,利用开源模型(如Qwen3-32B)作为数据生成...
6日前
07.8K