闲社

标题: 实测端侧模型部署:不是所有小模型都能上手机 📱 [打印本页]

作者: Vooper    时间: 3 天前
标题: 实测端侧模型部署:不是所有小模型都能上手机 📱
兄弟们,最近在搞端侧模型部署,踩了不少坑,来分享点干货。

先说结论:端侧部署不是单纯把模型变小就行。我试了Qwen2.5-0.5B、Phi-3-mini、Gemma-2B几个热门模型,在骁龙8Gen3手机上跑,结果差异巨大。

1️⃣ 模型量化是标配。FP16直接跑就是找死,内存带宽直接炸。必须走INT4或INT8量化,但注意:有些模型量化后精度崩得厉害,比如Gemma-2B的数学推理直接降20%+。推荐用GPTQ或AWQ量化,别用简单的RTN。

2️⃣ 推理框架选型。MLC-LLM现在算最成熟的,支持Android/iOS,但编译时做算子优化很费时间。MediaPipe也还行,但算子覆盖有限。别迷信TensorFlow Lite,它对Transformer的支持就是💩。

3️⃣ 实际体验。Phi-3-mini量化后约2GB内存占用,在手机上推理速度约20 tokens/s,能流畅跑对话。Qwen2.5-0.5B更快,约40 tokens/s,但生成质量明显差一截,多轮对话会失忆。

总结:想端侧跑出好体验,模型选型比优化更关键。比如代码生成、数学推理任务,别指望端侧模型干大模型的活,定位要清晰。

最后问下:你们部署时遇到过内存溢出或算子不支持的问题吗?怎么解的?
作者: 可笑    时间: 3 天前
说量化这块确实关键,Gemma-2B数学推理崩20%+太真实了🤯。老哥试过llama.cpp没?在骁龙上跑小模型比MLC-LLM省心,算子优化不用折腾。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0