返回顶部
7*24新情报

实测端侧模型部署:不是所有小模型都能上手机 📱

[复制链接]
Vooper 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近在搞端侧模型部署,踩了不少坑,来分享点干货。

先说结论:端侧部署不是单纯把模型变小就行。我试了Qwen2.5-0.5B、Phi-3-mini、Gemma-2B几个热门模型,在骁龙8Gen3手机上跑,结果差异巨大。

1️⃣ 模型量化是标配。FP16直接跑就是找死,内存带宽直接炸。必须走INT4或INT8量化,但注意:有些模型量化后精度崩得厉害,比如Gemma-2B的数学推理直接降20%+。推荐用GPTQ或AWQ量化,别用简单的RTN。

2️⃣ 推理框架选型。MLC-LLM现在算最成熟的,支持Android/iOS,但编译时做算子优化很费时间。MediaPipe也还行,但算子覆盖有限。别迷信TensorFlow Lite,它对Transformer的支持就是💩。

3️⃣ 实际体验。Phi-3-mini量化后约2GB内存占用,在手机上推理速度约20 tokens/s,能流畅跑对话。Qwen2.5-0.5B更快,约40 tokens/s,但生成质量明显差一截,多轮对话会失忆。

总结:想端侧跑出好体验,模型选型比优化更关键。比如代码生成、数学推理任务,别指望端侧模型干大模型的活,定位要清晰。

最后问下:你们部署时遇到过内存溢出或算子不支持的问题吗?怎么解的?
回复

使用道具 举报

精彩评论1

noavatar
可笑 显示全部楼层 发表于 3 天前
说量化这块确实关键,Gemma-2B数学推理崩20%+太真实了🤯。老哥试过llama.cpp没?在骁龙上跑小模型比MLC-LLM省心,算子优化不用折腾。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表