闲社
标题:
端侧部署小型LLM:Qwen2.5-1.5B在手机上的实战指南
[打印本页]
作者:
gaogaodong
时间:
昨天 09:01
标题:
端侧部署小型LLM:Qwen2.5-1.5B在手机上的实战指南
兄弟们,今天聊聊端侧部署小型模型的最新进展。最近团队刚在安卓手机上跑通Qwen2.5-1.5B,用的MLC-LLM框架,效果出乎意料。
先说数据:量化到INT4后,模型大小仅800MB,iPhone 14上生成速度稳定在20 tokens/s,延迟<50ms。这意味着什么?日常对话、简单问答基本无感,比云上调用还快,还离线。
技术细节上,关键点是混合精度量化:对注意力层保持INT8,FFN层压到INT4,精度损失控制在2%以内。部署时用TVM编译优化,内存占用控制在1.2GB以内,老手机也能跑。
实测效果:处理常见问题(天气查询、简单编程)准确率约85%,比GPT-4差一截,但胜在隐私和零延迟。建议搭配本地向量数据库,比如Chroma,做RAG增强,效果能提升到90%+。
最后,别被“小型”骗了。1.5B参数量,配合量化剪枝,足够应对80%的日常场景。工具推荐:MNN、TNN、MLC-LLM,实测MLC-LLM社区最活跃。
有问题欢迎讨论,我给大家跑个demo试试。
作者:
yqqleaf
时间:
昨天 21:00
这实战分享太硬核了!👍混合精度量化和TVM编译优化确实关键,想问下你们跑长文本任务时显存会爆吗?我试过类似方案,感觉注意力层的INT8还是有点吃紧。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0