豆包 Doubao-1.5-pro 发布：极致平衡的全新多模态基础模型

3.4K 00

Doubao-1.5-pro

🌟 模型简介

Doubao-1.5-pro 是一个高度稀疏的 MoE 架构，在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中，表现出显著不同的计算与访存特征。针对四个不同象限，我们采用异构硬件结合不同的低精度优化策略，在确保低延迟的同时大幅提升吞吐量，在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标，在性能和推理效率之间实现了极致平衡。

小激活参数：超过超大稠密模型的性能。
多场景适应：在多个评测基准上表现优异。

📊 性能评估

Doubao-1.5-pro 在多个基准上的测评结果

豆包 Doubao-1.5-pro 发布：极致平衡的全新多模态基础模型
说明：

表格中其余模型的评测指标来自官方结果，未公布的部分由内部评测平台完成。
GPT4o-0806 在语言模型公开评测中表现出色，详见：simple-evals。

⚙️ 性能与推理的平衡

高效 MoE 架构

使用 稀疏 MoE 架构 实现训练和推理效率的双重优化。
研究亮点：通过稀疏度 Scaling Law，确定性能和效率的最佳平衡比例。

训练 Loss 对比

模型性能对比

豆包 Doubao-1.5-pro 发布：极致平衡的全新多模态基础模型
说明：

Doubao-MoE 模型性能优于激活参数量 7 倍的稠密模型（Doubao-Dense）。
Doubao 稠密模型训练效率高于 Llama3.1-405B，数据质量和超参优化是关键。

🚀 高性能推理

计算与访存特征优化

Doubao-1.5-pro 在四个计算象限中表现出色：Prefill、Decode、Attention、FFN。
豆包 Doubao-1.5-pro 发布：极致平衡的全新多模态基础模型

Prefill 阶段，通信和访存瓶颈不明显，但容易达到计算瓶颈。考虑到 LLM 单向注意力的特点，我们在多种计算访存比高的设备上做 Chunk-PP Prefill Serving，使线上系统 Tensor Core 的利用率接近 60%。

Prefill Attention: 使用 MMA/WGMMA 等指令扩展开源的 FlashAttention 8-bit 实现，结合 Per N tokens Per Sequence 的量化策略，确保该阶段可以在不同架构的 GPU 上无损运行。同时，通过建模不同长度分片的 Attention 耗时，并结合动态跨 Query Batching 的策略，实现 Chunk-PP Serving 时的卡间均衡，有效消除负载不均衡引起的空跑；
Prefill FFN: 采用 W4A8 量化，有效降低了稀疏 MoE 专家的访存开销，并通过跨 Query Batching 的策略，给到FFN阶段更多输入，使 MFU 提升至 0.8.

Decode 阶段，计算瓶颈不明显，但对通信和访存能力要求比较高。我们采用计算访存比较低的设备 Serving 来换取更高的 ROI，同时，采用极低成本的 Sampling 采样以及 Speculative Decoding 策略，降低 TPOT 指标。

Decode Attention：采用 TP 方式部署，并通过启发式搜索以及激进的长句拆分策略，优化单 batch 内不同 Query KV 长度差异大的常见场景；精度上，依然采用 Per N tokens Per Sequence 量化方式；此外，还优化了随机采样过程中的 Attention 计算，保证 KV Cache 只被访问一次。
Decode FFN：保持 W4A8 量化，采用 EP 方式部署。

整体来看，在 PD 分离的 Serving 系统上，我们实现了以下优化：

针对 Tensor 传输进行定制化的 RPC Backend，并通过零拷贝、多流并行等手段优化了 TCP/RDMA 网络上的 Tensor 传输效率，进而提升 PD 分离下的 KV Cache 传输效率。
支持 Prefill 跟 Decode 集群的灵活配比和动态扩缩，对每种角色独立做 HPA 弹性扩容，保障 Prefill 和 Decode 都无冗余算力，两边算力配比贴合线上实际流量模式。
在框架上将 GPU 计算和 CPU 前后处理异步化，使得 GPU 推理第 N 步时 CPU 提前发射第 N+1 步 Kernel，保持 GPU 始终被打满，整个框架处理动作对 GPU 推理零开销。此外，凭借自研服务器集群方案，灵活支持低成本芯片，硬件成本比行业方案大幅度降低。我们还通过定制化网卡和自主研发的网络协议，显著优化了小包通信的效率。在算子层面，我们实现了计算与通信的高效重叠（Overlap），从而保证了多机分布式推理的稳定性和高效性。

🎯 数据标注：不走捷径

构建高效数据生产体系，结合 标注团队 和 模型自提升技术，大幅提升数据质量。

🖼️ 多模态能力

视觉多模态：复杂场景轻松应对

动态分辨率训练：吞吐提升 60%

解决视觉 Encoder 负载不均问题，效率提升显著。

✅ 总结

Doubao-1.5-pro 在高效能与低推理成本间找到了最佳平衡点，并在多模态场景取得突破：

创新的稀疏架构设计。
高质量训练数据与优化体系。
推动多模态技术的新标杆。

AI新闻

文章版权归 AI分享圈所有，未经允许请勿转载。

国家超算互联网正式上线 DeepSeek R1，打造全民可及的智能基础设施

AI新闻

6mos ago

01.2K

阿里巴巴AI研究院发布CosyVoice 2：改进的流式语音合成模型

AI新闻

7mos ago

01.5K

现在你可以在 Claude Artifacts 中生成交互式可视化数据

AI新闻

9mos ago

01.9K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

豆包 Doubao-1.5-pro 发布：极致平衡的全新多模态基础模型

🌟 模型简介

📊 性能评估

Doubao-1.5-pro 在多个基准上的测评结果

⚙️ 性能与推理的平衡

高效 MoE 架构

训练 Loss 对比

模型性能对比

🚀 高性能推理

计算与访存特征优化

🎯 数据标注：不走捷径

🖼️ 多模态能力

视觉多模态：复杂场景轻松应对

动态分辨率训练：吞吐提升 60%

✅ 总结

智谱GLM-PC开放体验：自主操作电脑的多模态Agent再升级

30天2次日榜第1，Reddit百万曝光，AI工具出海的高效冷启动故事

Related posts

国家超算互联网正式上线 DeepSeek R1，打造全民可及的智能基础设施

阿里巴巴AI研究院发布CosyVoice 2：改进的流式语音合成模型

现在你可以在 Claude Artifacts 中生成交互式可视化数据

推荐一些CHATGPT替代品

暂无评论

最新收录

最新文章

豆包 Doubao-1.5-pro 发布：极致平衡的全新多模态基础模型

🌟 模型简介

📊 性能评估

Doubao-1.5-pro 在多个基准上的测评结果

⚙️ 性能与推理的平衡

高效 MoE 架构

训练 Loss 对比

模型性能对比

🚀 高性能推理

计算与访存特征优化

🎯 数据标注：不走捷径

🖼️ 多模态能力

视觉多模态：复杂场景轻松应对

动态分辨率训练：吞吐提升 60%

✅ 总结

智谱GLM-PC开放体验：自主操作电脑的多模态Agent再升级

30天2次日榜第1，Reddit百万曝光，AI工具出海的高效冷启动故事

Related posts

国家超算互联网正式上线 DeepSeek R1，打造全民可及的智能基础设施

阿里巴巴AI研究院发布CosyVoice 2：改进的流式语音合成模型

现在你可以在 Claude Artifacts 中生成交互式可视化数据

推荐一些CHATGPT替代品

暂无评论

AI工具精选

最新收录

最新文章