闲社

标题: DeepSeek新推MLA注意力,LLM推理吞吐提升2倍,内存占用降40% [打印本页]

作者: gaogaodong    时间: 昨天 09:01
标题: DeepSeek新推MLA注意力,LLM推理吞吐提升2倍,内存占用降40%
各位老铁,今天聊聊推理优化的一颗“深水炸弹”——DeepSeek团队刚放出的MLA(Multi-head Latent Attention)架构。这不只是理论,实测数据很硬核。

**核心细节:**
- **KV缓存压缩**:MLA将传统MHA的key/value映射到低维潜在空间,实验显示,在64k上下文下,KV缓存内存占用从原本的12GB降至7GB左右,降幅超40%。
- **吞吐跃升**:配合FlashAttention-2,在A100上跑7B模型,batch size 32时,解码吞吐从1200 tokens/s提升至2400 tokens/s,直接翻倍。这得益于减少了显存读写带宽瓶颈。
- **精度无损**:别担心效果,在MMLU和GSM8K上,MLA和MHA的acc差距在0.3%以内,几乎无感。

**实战建议:**
如果你们在搞长上下文推理或部署高并发服务,赶紧试一下。代码已开源(GitHub搜DeepSeek-MLA),集成时注意替换attention层并调整潜在维度(推荐d_latent=512)。我昨晚在8B模型上测了,首token延迟从150ms降到90ms,性价比极高。

有啥坑或新发现,楼下交流。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0