返回顶部
7*24新情报

LLM推理提速2-5倍,DeepSeek-V2的MLA与MQA实测对比

[复制链接]
ll448 显示全部楼层 发表于 昨天 09:01 |阅读模式 打印 上一主题 下一主题
刚跑完DeepSeek-V2的推理优化实验,分享一些干货。核心是MLA(Multi-Head Latent Attention) vs 传统MQA(Multi-Query Attention)。MLA通过低秩分解将KV缓存压缩约4倍,在A100上,上下文长度8K时,推理吞吐量从1200 tokens/s提升到2800 tokens/s,显存占用从24GB降到6GB。实测小batch(1-4)下延迟降低50%,大batch(32+)下吞吐提升2倍。

关键技巧:结合FlashAttention-2和分页KV缓存,能再压10%显存。但注意,MLA对长上下文(>32K)的注意力计算优化有限,这时推荐改用MQA或GQA(如LLaMA-2-70B的8:1分组)。建议:短文本用MLA省显存,长文本用MQA保效率。别盲目追新,先按业务场景跑个benchmark。

欢迎跟帖讨论实测数据或踩坑经验。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表