Logics-Parsing - 阿里开源的文档解析模型
Logics-Parsing 是阿里开源的端到端文档解析模型,基于 Qwen2.5-VL-7B。通过强化学习优化文档布局分析和阅读顺序推断,能将 PDF 图像转换为结构化 HTML 输出,支持多种内容...
Ring-1T-preview - 蚂蚁集团开源的万亿参数大模型
Ring-1T-preview 是蚂蚁集团开源的万亿参数大模型,基于 Ling 2.0 MoE 架构,在 20T 语料上预训练,并通过自研强化学习系统 ASystem 进行推理能力训练。在自然语言推理...
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型
RoboBrain-X0是智源研究院开源的全球首个支持零样本跨本体泛化的开源具身模型,具有重要的行业意义。能在无需微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,在少量样本微调后展现出对复...
Lynx - 字节跳动开源的高保真视频生成模型
Lynx 是字节跳动开源的高保真个性化视频生成模型,仅需单张人像照片,能生成身份一致的视频。基于扩散 Transformer(DiT)基础模型构建,引入 ID-adapter 和 Ref-adapte...
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型
DeepSeek-V3.2-Exp是DeepSeek开源的实验性AI模型,通过引入DeepSeek Sparse Attention(DSA)机制,显著提升长文本处理的效率。模型基于DeepSeek...
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型
HunyuanImage 3.0(混元图像3.0)是腾讯发布并开源的原生多模态图像生成模型。模型参数规模达80B,是目前测评效果最好、参数量最大的开源生图模型。混元图像3.0支持实时生图功能,用户可边...
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型
Hunyuan3D-Part(混元3D-Part)是腾讯发布并开源的3D生成模型。由P3 - SAM和X - Part组成,首次实现高精度、可控的组件式3D生成,支持50 + 组件自动生成。用户可先用...
AudioFly - 科大讯飞开源的文本生成音效AI模型
AudioFly是科大讯飞开源的文本生成音效的AI模型。基于潜在扩散模型架构,拥有10亿个参数,经过大规模、多样化的音频文本数据集训练,涵盖AudioSet、AudioCaps、TUT等公开数据集及内...
Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架
Hunyuan3D-Omni(混元3D-Omni)是腾讯混元3D团队开源的3D资产生成框架,通过多种控制信号实现精准的3D模型生成。基于Hunyuan3D 2.1架构,引入了统一的控制编码器,可处理点...
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型
FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型,支持中文和英文。采用原生全双工架构,可在每个时间步合并听觉、说话和独白...