AI分享圈

AI正在改变世界!
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0(混元图像3.0)是腾讯发布并开源的原生多模态图像生成模型。模型参数规模达80B,是目前测评效果最好、参数量最大的开源生图模型。混元图像3.0支持实时生图功能,用户可边...
8个月前
049.6K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part(混元3D-Part)是腾讯发布并开源的3D生成模型。由P3 - SAM和X - Part组成,首次实现高精度、可控的组件式3D生成,支持50 + 组件自动生成。用户可先用...
8个月前
050.9K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly是科大讯飞开源的文本生成音效的AI模型。基于潜在扩散模型架构,拥有10亿个参数,经过大规模、多样化的音频文本数据集训练,涵盖AudioSet、AudioCaps、TUT等公开数据集及内...
8个月前
043.8K
Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架

Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架

Hunyuan3D-Omni(混元3D-Omni)是腾讯混元3D团队开源的3D资产生成框架,通过多种控制信号实现精准的3D模型生成。基于Hunyuan3D 2.1架构,引入了统一的控制编码器,可处理点...
8个月前
047.4K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型,支持中文和英文。采用原生全双工架构,可在每个时间步合并听觉、说话和独白...
8个月前
040.7K
CWM - Meta FAIR开源的代码世界语言模型

CWM - Meta FAIR开源的代码世界语言模型

CWM(Code World Model)是Meta FAIR团队发布的一款320亿参数的开源代码世界语言模型,专为代码生成和推理设计。引入“世界模型”概念,能模拟代码执行过程,预测变量状态变化,提前...
8个月前
037K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code 是蚂蚁集团支付宝体验技术部开源的智能编程助手,通过人工智能技术提升开发效率。具备对话式开发功能,开发者可以通过自然语言描述需求,Neovate Code 能理解并生成相应的代...
8个月前
040.5K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face是NVIDIA开源的能将音频输入转化为逼真的3D面部动画AI工具。通过分析音频中的语音特征,如音素和语调,生成精确的唇部同步和细腻的情感表达,为虚拟角色赋予生动的人类表情。
8个月前
041.7K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL是阿里云通义千问团队开源的多模态视觉语言大模型,参数量达2350亿,模型文件约471GB。包含指令版和思考版,采用增强的MRope交错布局、DeepStack等技术,可有效利用视觉变换...
8个月前
056.9K
Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard 是基于 Qwen3 基础模型微调的安全防护模型,专为安全检测而设计。能对提示词和响应进行精确的安全分类,提供风险等级,支持英语、中文和多语言环境。Qwen3Guard 有两个专业...
8个月前
045.7K