兄弟们,刚扒完NV的Hopper GPU,结合最新论文(FlashAttention-3,arXiv:2407.08608),给大家爆个干货。这玩意儿在H100上把之前FlashAttention-2的推理吞吐又推了一波,关键是没改算法本质,而是把硬件特性吃透了。
核心改进点:利用Hopper的异步WGMMA指令,把QK^T的矩阵乘和softmax计算彻底流水线化了。实测在FP16下,前向pass的FLOPs利用率从FlashAttention-2的约60%飙到接近75%,推理批处理场景下,batch size=64时延迟降低约1.7倍。
别小看这数字,对长上下文模型(比如128K的Llama-3)影响更大。原来注意力计算占总推理时间的30%-40%,现在直接砍到20%以下。另外,FP8的支持也实装了——配合H100的Transformer Engine,显存带宽瓶颈减轻不少。
实操建议:如果你在用H100跑推理服务(比如vLLM或TensorRT-LLM),赶紧切到FlashAttention-3的预发布分支。注意,Ampere卡(A100)别硬上,收益有限,Hopper专属优化。参数调优时,记得把block size从128调到64,配合流水线能再提5%的吞吐。
总之,这波不是画饼,是实打实能落地的优化。社区里有人已经放出benchmark,可以自己测一把。 |