Kimi Linear - 月之暗面开源的新型混合线性注意力架构

37.5K 00

Kimi Linear是什么

Kimi Linear 是月之暗面开源的新型混合线性注意力架构，以 Kimi Delta Attention（KDA）为核心，通过更细粒度的门控机制优化了传统注意力模型，显著提升了硬件效率和内存控制能力。架构采用 3:1 的混合层级结构，即每三个 KDA 线性注意力层后插入一个全注意力层（MLA），既保证了高效的局部信息处理，又能周期性地捕捉全局依赖关系。结合专家混合（MoE）技术，Kimi Linear 在 480 亿参数规模下，每个前向传播仅激活 30 亿参数，大幅提升了计算效率。

Kimi Linear的功能特色

高效架构设计：采用 3:1 的混合层级结构，结合线性注意力与全注意力，兼顾效率与全局信息捕捉。
创新注意力机制：核心的 Kimi Delta Attention（KDA）引入通道级对角门控和特殊矩阵参数化，优化内存控制与硬件效率。
专家混合技术：融入专家混合（MoE），在 480 亿参数规模下，每次前向传播仅激活 30 亿参数，提升计算效率。
显著性能提升：KV 缓存使用率降低 75%，长上下文解码吞吐量提升至完整 MLA 模型的 6 倍，适合处理长序列任务。
开源与易用性：KDA 内核和 vLLM 实现已开源，提供预训练及指令调优模型检查点，便于研究与应用。

Kimi Linear的核心优势

架构优势：Kimi Linear 采用创新的 3:1 混合层级结构，结合线性注意力与全注意力，兼顾效率与全局信息捕捉，实现高效处理长序列数据。
性能优势：KV 缓存使用率降低 75%，长上下文解码吞吐量提升至完整 MLA 模型的 6 倍，显著提升处理长序列任务的效率。
效率优势：结合专家混合（MoE）技术，480 亿参数规模下每次前向传播仅激活 30 亿参数，大幅降低计算成本。
创新优势：Kimi Delta Attention（KDA）引入通道级对角门控和特殊矩阵参数化，优化内存控制与硬件效率，提升模型性能。

Kimi Linear官网是什么

Github仓库：https://github.com/MoonshotAI/Kimi-Linear
HuggingFace模型库：https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
技术论文：https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf