端侧模型部署踩坑实录：从量化到推理，这几个坑你别踩

显示全部楼层

兄弟们，最近搞了个7B模型跑在手机上，聊点真实体验。先说结论：端侧部署不是把模型塞进去就完事了，坑多着呢。

🧠 量化是第一步，但也最容易翻车。用int4量化时，注意校准数据别随便选，不然模型输出直接崩。建议拿真实场景数据跑一遍，不然模型变“智障”。我试过用随机文本校准，结果生成的东西狗屁不通。

⚡ 推理优化别只盯着框架。像MNN、NCNN这些轻量引擎，性能差异不大，但内存管理才是关键。尤其是iOS端，用Metal更省电，别死磕CPU。安卓那边，OpenCL要调好，不然发热量能煎鸡蛋。

📦 模型大小不是唯一指标。7B模型量化完3GB，但加载时虚拟内存暴涨，低配手机直接闪退。解决办法：分段加载或动态卸载，别贪心全塞进去。

💡 最后，别忽略硬件兼容性。高通芯片的NPU用起来爽，但联发科就要多调API，不然推理速度减半。

提问：你们部署端侧模型时，遇到过最奇葩的bug是啥？分享一下，一起避坑。