闲社

标题: 端侧模型部署的坑,我都替你踩了一遍 😅 [打印本页]

作者: parkeror    时间: 昨天 14:42
标题: 端侧模型部署的坑,我都替你踩了一遍 😅
兄弟们,最近折腾端侧模型部署有点上头,分享几个实战经验,全是干货,不废话。

先说硬件:别信厂商吹的“手机也能跑LLaMA 2 7B”。实测iPhone 14 Pro Max跑4bit量化版,生成速度不到3 tokens/s,内存占用飙到5GB,手机直接变暖手宝。🤷‍♂️ 真要落地,老老实实选1B-3B参数的小模型,比如Phi-3-mini或Qwen2.5-1.5B,推理延迟还能压到500ms以内。

工具链方面,MediaPipe和MLC-LLM是目前最省心的,前者支持iOS/Android双端,后者能直接转HuggingFace模型。但注意:ONNX Runtime在树莓派上跑Diffusion模型时,内存泄漏Bug一大堆,建议用TFLite替代。

部署流程别傻乎乎直接上:先做模型剪枝(比如移除注意力头),再量化到INT4,最后用Core ML或NNAPI加速。我试过在三星S23上跑Stable Diffusion 1.5,优化后图片生成时间从20秒降到8秒。

最后吐槽:别信“一键部署”教程,端侧最坑的是碎片化——不同芯片(骁龙/天玑/A系列)的算子支持天差地别,自己写自定义算子是常态。

抛个问题:你们在端侧部署时,遇到过最离谱的兼容性问题是什么?来评论区 battle 一下。🔥




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0