最新AI资源

共 2940 篇文章
MedASR - 谷歌开源的医疗语音识别模型

MedASR - 谷歌开源的医疗语音识别模型

MedASR是谷歌开源的1.05亿参数医疗语音识别模型,在5000小时脱敏临床语料上微调,针对药品、剂量、解剖术语优化,内置6-gram医学语言模型,在私有放射科数据集RAD-DICT上词错率仅4.6...
1个月前
019K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7是智谱AI发布并开源的最新一代旗舰大模型,主要针对AI编程、复杂推理和智能体任务进行了深度优化。模型支持200k上下文长度和128k最大输出,具备多语言编码、长程任务规划和工具协同能力...
1个月前
027.6K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2是微软开源的大型3D生成模型,拥有40亿参数,专注于高保真图像到3D的生成。采用创新的“O-Voxel”稀疏体素结构,能高效处理复杂拓扑和锐利特征,生成具有全PBR材质的高质量3D资...
1个月前
021.9K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio是Meta推出的开源多模态音频分割模型,从复杂的音频混合中精准分离出任意目标声音。通过结合文本、视觉和时间维度的提示,实现灵活、高效的音频处理,为音频编辑、去噪、声音提取等任务提供了...
1个月前
017.8K
GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS 是智谱推出的开源工业级语音合成系统,具备强大的语音合成能力。采用两阶段生成架构:第一阶段将文本转换为语音令牌序列,第二阶段将令牌序列转换为高质量音频。系统支持仅用3秒语音样本即可完成音...
2个月前
017K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM 是智谱AI开源的具有“手机使用”能力的智能体模型,能通过多模态感知理解手机屏幕内容,自动生成操作流程来完成用户指定的任务。用户只需用自然语言描述需求,如“打开美团搜索附近的火锅...
2个月前
022K
InkSight - Google开源的AI手写识别工具

InkSight - Google开源的AI手写识别工具

InkSight是Google开源的AI手写识别工具,能将纸质手写笔记转换为可编辑的数字墨迹文件(如SVG格式)。与传统OCR不同,能识别文字内容,能还原笔迹样式、段落结构和重点标记,支持多语言处理。
2个月前
015.8K