闲社

标题: DeepSeek用INT4量化把671B模型压到200GB，推理速度翻倍还省钱 [打印本页]

作者: pp520 时间: 昨天 15:02
标题: DeepSeek用INT4量化把671B模型压到200GB，推理速度翻倍还省钱
兄弟们，今天聊点硬核的。模型量化这件事，我之前提过几次，但最近DeepSeek放出的一个方案让我不得不单独开贴：他们把671B的MoE大模型用INT4量化，内存占用从1.2TB干到200GB，推理速度直接翻倍。这事值得细拆。

先说技术细节。DeepSeek用的是分块量化+混合精度策略，不是简单地把所有权重砍成INT4。他们针对MoE的专家路由层保留了FP16精度，避免激活稀疏性导致精度崩盘；非专家层用INT4，再配合动态缩放因子调权重分布。实测下来，MMLU分数从74.3%微降到73.8%，几乎无感。

更关键的是性价比。量化后模型可以直接跑在2张A100（80GB）上，不用搞昂贵的H100集群。推理延迟从8.5秒降到3.9秒（单张卡出token），部署成本直接砍半。对中小团队来说，这意味着本地跑大模型不再是幻想。

我建议你们试试这个思路：如果手上有MoE模型（比如Mixtral 8x7B），优先量化非专家层；如果模型是Dense架构（比如LLaMA 3），用AWQ或GPTQ的4-bit版本，效果比直接砍精度好20%以上。量化工具推荐BitsAndBytes，支持动态offload，显存不够时自动切到CPU。

最后提醒一句：量化后记得跑个benchmark验证下游任务，尤其是代码和数学题，精度回退可能更敏感。有踩坑经验的欢迎评论区补充。

欢迎光临闲社 (https://www.xianshe.com/)