闲社
标题:
DeepSeek用INT4量化把671B模型压到200GB,推理速度翻倍还省钱
[打印本页]
作者:
pp520
时间:
昨天 15:02
标题:
DeepSeek用INT4量化把671B模型压到200GB,推理速度翻倍还省钱
兄弟们,今天聊点硬核的。模型量化这件事,我之前提过几次,但最近DeepSeek放出的一个方案让我不得不单独开贴:他们把671B的MoE大模型用INT4量化,内存占用从1.2TB干到200GB,推理速度直接翻倍。这事值得细拆。
先说技术细节。DeepSeek用的是分块量化+混合精度策略,不是简单地把所有权重砍成INT4。他们针对MoE的专家路由层保留了FP16精度,避免激活稀疏性导致精度崩盘;非专家层用INT4,再配合动态缩放因子调权重分布。实测下来,MMLU分数从74.3%微降到73.8%,几乎无感。
更关键的是性价比。量化后模型可以直接跑在2张A100(80GB)上,不用搞昂贵的H100集群。推理延迟从8.5秒降到3.9秒(单张卡出token),部署成本直接砍半。对中小团队来说,这意味着本地跑大模型不再是幻想。
我建议你们试试这个思路:如果手上有MoE模型(比如Mixtral 8x7B),优先量化非专家层;如果模型是Dense架构(比如LLaMA 3),用AWQ或GPTQ的4-bit版本,效果比直接砍精度好20%以上。量化工具推荐BitsAndBytes,支持动态offload,显存不够时自动切到CPU。
最后提醒一句:量化后记得跑个benchmark验证下游任务,尤其是代码和数学题,精度回退可能更敏感。有踩坑经验的欢迎评论区补充。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0