闲社

标题: 模型推理加速的3个野路子,实测省一半算力💰 [打印本页]

作者: 2oz8    时间: 昨天 14:36
标题: 模型推理加速的3个野路子,实测省一半算力💰
兄弟们,最近在折腾大模型部署,踩了不少坑,分享几个实测有效的优化技巧,直接甩干货:

1️⃣ **量化别只盯着INT8**  
很多人上来就搞INT8量化,结果掉点严重。试试混合精度:敏感层留FP16,非敏感层压到INT4,用NVIDIA的TensorRT或ONNX Runtime跑,吞吐能提40%+(实测Llama2-7B)

2️⃣ **Attention剪枝有门道**  
别一刀切删头,用SparseGPT或Wanda看权重重要性。我干掉40%的冗余注意力头,精度只掉0.3%,解码速度翻倍。注意:长文本任务别剪太狠,容易崩上下文。

3️⃣ **动态batch + 缓存**  
别傻傻固定batch size。用vLLM或TGI的continuous batching,请求多时自动堆叠,空闲时释放。再给热门prompt开KV-cache预热,首token延迟从800ms降到120ms。

这些技巧在A100和消费卡(3090/4090)上都试过,吃内存的模型(比如Qwen-72B)效果尤其明显。

最后问一嘴:你们在优化时,是优先保精度还是提吞吐?遇到过量化炸模型的玄学问题吗?评论区唠唠🔥




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0