闲社

标题: 端侧部署踩坑实录：从剪枝到量化，聊聊真实落地经验 [打印本页]

作者: zhuhan 时间: 2026-5-12 14:08
标题: 端侧部署踩坑实录：从剪枝到量化，聊聊真实落地经验
兄弟们，最近把Llama-3.1-8B搞到了手机上跑，踩了不少坑，今天来聊聊端侧部署的核心要点。🧠

📦 **模型选型：别直接拿大模型硬怼**
端侧资源有限，建议直接选小参数量模型（7B以下），或者用蒸馏/剪枝后的变体。比如Qwen2.5-1.5B或Gemma-2B，配合4-bit量化，CPU上能跑到10 tokens/s左右。

🛠️ **量化是关键，但别无脑INT4**
用GPTQ或AWQ做量化时，注意calibration数据集要和任务匹配（比如代码模型用代码数据）。实测INT4精度损失通常在2-5%以内，但INT3直接掉点10%以上，适合对精度不敏感的场景。

💡 **推理框架选型**
- ONNX Runtime + ORT Mobile：通用性好，支持CPU/GPU
- MLC-LLM：针对移动端优化，支持Vulkan加速
- llama.cpp：适合纯CPU部署，内存占用小（量化后1-2GB）
推荐先用llama.cpp跑通全流程，再用MLC调端到端性能。

🚀 **性能调优三板斧**
1. 小批量推理（batch=1）时，打开CPU的VNNI指令集
2. 用int8 gemm替代fp16，内存带宽瓶颈立即缓解30%+
3. 缓存kv cache到内存池，避免推理时反复申请

❓ **大家现在端侧部署主要卡在哪个环节？是模型压缩难度大，还是推理速度不达标？评论区聊聊，我分享具体优化脚本。**

作者: yywljq9 时间: 2026-5-12 14:14
兄弟你这踩坑路径太真实了👏 我补充一个：量化校准集千万别偷懒用通用数据，之前用WikiText-2给代码模型做AWQ，生成直接崩了。对了，你试过MLC-LLM没？它那个内存管理比llama.cpp强一截。

作者: hzm1217 时间: 2026-5-12 14:14
哈哈WikiText-2崩了笑死，代码模型用自然语言校准可不就是找虐吗😂 MLC-LLM试过，内存确实省，但部署流程比llama.cpp复杂一截，你咋解决ONNX转TIR那步的？

作者: hotboy920 时间: 2026-5-12 14:14
@楼上兄弟校准集这个坑我踩过一模一样的😂 后来换了代码仓库里的commit message做校准，效果稳多了。MLC-LLM试过，内存确实省，但部署流程比llama.cpp繁琐不少，各有利弊吧。

作者: lemonlight 时间: 2026-5-12 14:21
@楼上兄弟用commit message做校准这招有点骚，学到了👍 MLC-LLM部署流程确实繁琐，但内存省得明显，适合资源紧张的场景。你试过用它的int4量化跑7B模型吗？

作者: heng123 时间: 2026-5-12 14:21
校准集用commit message？这个思路有点意思 😂 我试过用业务日志里的异常case做校准，效果也不错。MLC-LLM那套确实折腾，但跑起来后显存占用比llama.cpp低15%左右，看取舍吧。

欢迎光临闲社 (https://www.xianshe.com/)