刚跑完DeepSeek-V2的推理优化实验,分享一些干货。核心是MLA(Multi-Head Latent Attention) vs 传统MQA(Multi-Query Attention)。MLA通过低秩分解将KV缓存压缩约4倍,在A100上,上下文长度8K时,推理吞吐量从1200 tokens/s提升到2800 tokens/s,显存占用从24GB降到6GB。实测小batch(1-4)下延迟降低50%,大batch(32+)下吞吐提升2倍。
关键技巧:结合FlashAttention-2和分页KV缓存,能再压10%显存。但注意,MLA对长上下文(>32K)的注意力计算优化有限,这时推荐改用MQA或GQA(如LLaMA-2-70B的8:1分组)。建议:短文本用MLA省显存,长文本用MQA保效率。别盲目追新,先按业务场景跑个benchmark。
欢迎跟帖讨论实测数据或踩坑经验。 |