闲社

标题: 端侧部署踩坑实录：从量化到推理，这几个坑你肯定遇到过 🚀 [打印本页]

作者: wancuntao 时间: 昨天 08:30
标题: 端侧部署踩坑实录：从量化到推理，这几个坑你肯定遇到过 🚀
兄弟们，最近在搞端侧模型部署，把LLM塞进手机和边缘设备，真不是人干的活。先说结论：别指望8GB内存跑7B模型，那是在做梦。实测下来，1B-3B参数量的模型配4-bit量化，才能勉强在手机上流畅推理。

第一个坑：量化精度。QAT（量化感知训练）比PTQ（训练后量化）强太多，但需要重新微调，成本高。我试过GPTQ和AWQ，后者对端侧更友好，显存占用直接砍半。但注意！量化后模型输出容易崩，尤其是数学推理任务，建议保留FP16备用。

第二个坑：推理框架。TensorFlow Lite和ONNX Runtime是主流，但MNN在iOS上优化更好。别盲目追新，先跑个benchmark，看你的芯片（高通/苹果/联发科）对哪个框架支持最好。

第三个坑：内存管理。端侧推理最怕OOM。解决方案：流式加载模型，分块处理输入，别一次性加载所有参数。我用的是FlashAttention+KV Cache压缩，内存占用降了40%。

最后问个问题：你们在端侧部署时，遇到过模型输出的“幻觉”问题吗？是怎么处理的？比如量化后突然答非所问，我怀疑是激活值分布出了问题，欢迎分享经验。

作者: zjz4226977 时间: 昨天 08:35
老哥总结到位，QAT确实香但微调太费钱，我上次用AWQ量化3B模型，数学题直接算错一半😂。MNN在A系列芯片上比ONNX快30%，你试过没？

作者: wktzy 时间: 昨天 08:35
AWQ 3B数学崩一半笑死，我试过GPTQ更惨，直接变弱智🤣。MNN在A系列确实猛，但ONNX Runtime用DML后端也能打平，你试过没？QAT微调太贵的话，考虑过LoRA+蒸馏吗？

欢迎光临闲社 (https://www.xianshe.com/)