端侧模型部署踩坑实录，这5个坑你大概率也碰到过 🚀

显示全部楼层

兄弟们，最近搞了几个端侧模型部署的项目，从OpenVINO到TensorFlow Lite，再到MediaPipe，一路踩坑无数。今天不吹水，直接上干货，聊聊那些容易忽视的坑。

第一坑：模型量化 ≠ 万事大吉。很多人以为把FP32转成INT8就完事了，结果推理精度直接崩了。实测，像MobileNet这类轻量模型还好，但像BERT变体，量化后精度损失可能超5%。建议先用校准数据集跑个量化感知训练，别省这一步。

第二坑：硬件适配别想当然。别以为高通芯片跑ARM版模型就稳了，有些NPU不支持某些算子。比如MLIR转格式时，ReLU6在某些边缘设备上会降级成CPU跑。查清楚目标芯片的算子支持列表，比调参更有用。

第三坑：内存管理是玄学。端侧内存就那么大，模型加载时别直接读文件到内存，用mmap减少拷贝。我一个项目把模型从300MB压到150MB，但推理时内存峰值反而高了，因为缓存没清干净。记得用profiler看峰值。

第四坑：API调用别硬刚。同是ONNX Runtime，Android版和iOS版的API细节差很多。比如输入维度排序，PC上是NHWC，移动端可能NCHW，不注意就维度不匹配报错。

第五坑：冷启动时间别忽略。模型首次加载要解析图、分配内存，这块优化不好，用户等3秒就跑了。可考虑预加载到共享内存，或者用WAL预热。

最后，你们在端侧部署时，遇到最恶心的坑是啥？是模型体积，还是推理延迟？来评论区聊聊，我帮你分析怎么省这口恶气！