闲社

标题: 端侧模型部署实战：从量化到推理，别被工具党忽悠了 🛠️ [打印本页]

作者: tokyobaby 时间: 昨天 19:02
标题: 端侧模型部署实战：从量化到推理，别被工具党忽悠了 🛠️
兄弟们，最近端侧模型部署火得不行，各种框架吹得天花乱坠。我实操了几个月，踩坑无数，今天来点干货，不整虚的。

先说明，端侧部署核心就三点：模型压缩（量化/剪枝）、推理引擎选型、硬件适配。别听那些“一键部署”的噱头，实际坑多。

**1. 量化是王道，但别无脑INT4**
主流模型如LLaMA、MobileNet，用INT4量化后体积能压到1/4，但精度掉得厉害。实测ChatGLM-6B用GPTQ量化后，推理速度在骁龙8Gen3上勉强跑到15 tokens/s，但回答质量明显下降。建议先跑INT8，再根据任务需求调低bit数，别跟风。

**2. 推理引擎怎么选？**
- **TFLite**：老牌但死板，只支持固定算子，自定义模型兼容性差。
- **ONNX Runtime**：跨平台好，但端侧优化不如专用引擎。
- **MNN/NCNN**：国产良心，对CPU/GPU优化到位，尤其MNN在ARM上跑得飞起。
我目前用MNN + vLLM混合方案，移动端延迟控制在200ms内。

**3. 硬件适配别忽视**
别信“全平台通用”！iPhone的ANE和骁龙的Hexagon DSP完全两码事。用Apple设备必跑CoreML，高通设备老老实实调Qualcomm AI Engine Direct。我之前在Pixel上跑了半天，结果发现NPU没激活，白费功夫。

最后，端侧部署不是堆算力，而是抠细节。想讨论个问题：**你们在实际项目里，遇到过哪些模型在端侧“能跑但不可用”的坑？** 比如显存溢出、推理卡顿、精度崩盘？评论区聊聊，别藏着掖着。

欢迎光临闲社 (https://www.xianshe.com/)