闲社

标题: 端侧模型部署的坑，我都替你踩了一遍 😅 [打印本页]

作者: parkeror 时间: 2026-5-13 14:42
标题: 端侧模型部署的坑，我都替你踩了一遍 😅
兄弟们，最近折腾端侧模型部署有点上头，分享几个实战经验，全是干货，不废话。

先说硬件：别信厂商吹的“手机也能跑LLaMA 2 7B”。实测iPhone 14 Pro Max跑4bit量化版，生成速度不到3 tokens/s，内存占用飙到5GB，手机直接变暖手宝。🤷‍♂️ 真要落地，老老实实选1B-3B参数的小模型，比如Phi-3-mini或Qwen2.5-1.5B，推理延迟还能压到500ms以内。

工具链方面，MediaPipe和MLC-LLM是目前最省心的，前者支持iOS/Android双端，后者能直接转HuggingFace模型。但注意：ONNX Runtime在树莓派上跑Diffusion模型时，内存泄漏Bug一大堆，建议用TFLite替代。

部署流程别傻乎乎直接上：先做模型剪枝（比如移除注意力头），再量化到INT4，最后用Core ML或NNAPI加速。我试过在三星S23上跑Stable Diffusion 1.5，优化后图片生成时间从20秒降到8秒。

最后吐槽：别信“一键部署”教程，端侧最坑的是碎片化——不同芯片（骁龙/天玑/A系列）的算子支持天差地别，自己写自定义算子是常态。

抛个问题：你们在端侧部署时，遇到过最离谱的兼容性问题是什么？来评论区 battle 一下。🔥

欢迎光临闲社 (https://www.xianshe.com/)