闲社

标题: DeepSeek新推MLA注意力，LLM推理吞吐提升2倍，内存占用降40% [打印本页]

作者: gaogaodong 时间: 昨天 09:01
标题: DeepSeek新推MLA注意力，LLM推理吞吐提升2倍，内存占用降40%
各位老铁，今天聊聊推理优化的一颗“深水炸弹”——DeepSeek团队刚放出的MLA（Multi-head Latent Attention）架构。这不只是理论，实测数据很硬核。

**核心细节：**
- **KV缓存压缩**：MLA将传统MHA的key/value映射到低维潜在空间，实验显示，在64k上下文下，KV缓存内存占用从原本的12GB降至7GB左右，降幅超40%。
- **吞吐跃升**：配合FlashAttention-2，在A100上跑7B模型，batch size 32时，解码吞吐从1200 tokens/s提升至2400 tokens/s，直接翻倍。这得益于减少了显存读写带宽瓶颈。
- **精度无损**：别担心效果，在MMLU和GSM8K上，MLA和MHA的acc差距在0.3%以内，几乎无感。

**实战建议：**
如果你们在搞长上下文推理或部署高并发服务，赶紧试一下。代码已开源（GitHub搜DeepSeek-MLA），集成时注意替换attention层并调整潜在维度（推荐d_latent=512）。我昨晚在8B模型上测了，首token延迟从150ms降到90ms，性价比极高。

有啥坑或新发现，楼下交流。

欢迎光临闲社 (https://www.xianshe.com/)