最新AI资源

共 2913 篇文章
MedASR - 谷歌开源的医疗语音识别模型

MedASR - 谷歌开源的医疗语音识别模型

MedASR是谷歌开源的1.05亿参数医疗语音识别模型,在5000小时脱敏临床语料上微调,针对药品、剂量、解剖术语优化,内置6-gram医学语言模型,在私有放射科数据集RAD-DICT上词错率仅4.6...
2周前
010.5K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7是智谱AI发布并开源的最新一代旗舰大模型,主要针对AI编程、复杂推理和智能体任务进行了深度优化。模型支持200k上下文长度和128k最大输出,具备多语言编码、长程任务规划和工具协同能力...
2周前
019.4K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2是微软开源的大型3D生成模型,拥有40亿参数,专注于高保真图像到3D的生成。采用创新的“O-Voxel”稀疏体素结构,能高效处理复杂拓扑和锐利特征,生成具有全PBR材质的高质量3D资...
3周前
014.6K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio是Meta推出的开源多模态音频分割模型,从复杂的音频混合中精准分离出任意目标声音。通过结合文本、视觉和时间维度的提示,实现灵活、高效的音频处理,为音频编辑、去噪、声音提取等任务提供了...
3周前
011.7K
GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS 是智谱推出的开源工业级语音合成系统,具备强大的语音合成能力。采用两阶段生成架构:第一阶段将文本转换为语音令牌序列,第二阶段将令牌序列转换为高质量音频。系统支持仅用3秒语音样本即可完成音...
4周前
012.6K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM 是智谱AI开源的具有“手机使用”能力的智能体模型,能通过多模态感知理解手机屏幕内容,自动生成操作流程来完成用户指定的任务。用户只需用自然语言描述需求,如“打开美团搜索附近的火锅...
4周前
018K
InkSight - Google开源的AI手写识别工具

InkSight - Google开源的AI手写识别工具

InkSight是Google开源的AI手写识别工具,能将纸质手写笔记转换为可编辑的数字墨迹文件(如SVG格式)。与传统OCR不同,能识别文字内容,能还原笔迹样式、段落结构和重点标记,支持多语言处理。
4周前
010.9K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - MemVerge推出的开源AI记忆系统

MemMachine是MemVerge公司开发的开源AI记忆系统,专为AI大模型和智能体设计,能像人脑一样存储和回忆交互数据,解决AI“无状态失忆”问题。采用分层架构(短期记忆、长期记忆、用户画像...
1个月前
017.8K
ViMax - 香港大学开源的多智能体视频生成框架

ViMax - 香港大学开源的多智能体视频生成框架

ViMax是香港大学数据科学实验室开源的多智能体视频生成框架,能实现从创意输入到视频输出的全流程自动化。整合了剧本生成、分镜设计、镜头规划和视频渲染等功能,支持用户通过自然语言描述生成连贯的影视级视频...
1个月前
025.6K
Awex - 蚂蚁集团开源的高性能权重交换框架

Awex - 蚂蚁集团开源的高性能权重交换框架

Awex是蚂蚁集团开源的高性能权重交换框架,专为强化学习中的大规模参数同步设计。能在秒级完成TB级参数交换,显著提升训练推理效率。Awex具备极速同步性能,在千卡集群上,万亿参数模型可在6秒内完成全量...
2个月前
029.4K