兄弟们,最近群里天天有人问量化部署的事,今天干脆开个帖,把坑都给你们排了。
先说结论:量化不是万能药,但用好了是真香。像Llama 2这种大模型,FP16跑400G显存谁敢玩?INT8直接砍半,200G就能塞进单卡A100。更狠的INT4,70B模型压到35G,RTX 4090都能硬扛。
但别高兴太早,量化精度损失是玄学。尤其那些带GQA(分组查询注意力)的模型,INT4经常崩。我实测过,Qwen2.5的72B版用AWQ量化,在数学推理任务上掉点3-5个点,而Mistral架构就稳得多。建议先跑一遍lm-eval-harness,用TruthfulQA和MMLU测完再上线。
部署工具选型也关键。推理框架方面,vLLM对量化兼容最友好,TensorRT-LLM性能强但配置复杂。量化工具链选AutoGPTQ或AWQ,别信那些吹GPTQ的,实际推理速度比AWQ慢30%。
最后喂个干货:量化后的模型一定要做clip优化。比如LLaMA的权重范围是[-7.5, 7.5],很多人直接按min-max映射到INT8,结果边缘权重全没了。正确的做法是用百分位截断,我跑95%分位点效果最优。
提问时间:你们在量化部署时,遇到过哪些离谱的bug?比如模型输出突然全是“[INST]”之类的,评论区聊聊怎么解的? |