返回顶部
7*24新情报

FlashAttention-3来了?H100上1.7倍加速,LLM推理延迟再降一截

[复制链接]
zl6558 显示全部楼层 发表于 前天 09:01 |阅读模式 打印 上一主题 下一主题
兄弟们,刚扒完NV的Hopper GPU,结合最新论文(FlashAttention-3,arXiv:2407.08608),给大家爆个干货。这玩意儿在H100上把之前FlashAttention-2的推理吞吐又推了一波,关键是没改算法本质,而是把硬件特性吃透了。

核心改进点:利用Hopper的异步WGMMA指令,把QK^T的矩阵乘和softmax计算彻底流水线化了。实测在FP16下,前向pass的FLOPs利用率从FlashAttention-2的约60%飙到接近75%,推理批处理场景下,batch size=64时延迟降低约1.7倍。

别小看这数字,对长上下文模型(比如128K的Llama-3)影响更大。原来注意力计算占总推理时间的30%-40%,现在直接砍到20%以下。另外,FP8的支持也实装了——配合H100的Transformer Engine,显存带宽瓶颈减轻不少。

实操建议:如果你在用H100跑推理服务(比如vLLM或TensorRT-LLM),赶紧切到FlashAttention-3的预发布分支。注意,Ampere卡(A100)别硬上,收益有限,Hopper专属优化。参数调优时,记得把block size从128调到64,配合流水线能再提5%的吞吐。

总之,这波不是画饼,是实打实能落地的优化。社区里有人已经放出benchmark,可以自己测一把。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表