闲社

标题: 端侧部署小型LLM：Qwen2.5-1.5B在手机上的实战指南 [打印本页]

作者: gaogaodong 时间: 昨天 09:01
标题: 端侧部署小型LLM：Qwen2.5-1.5B在手机上的实战指南
兄弟们，今天聊聊端侧部署小型模型的最新进展。最近团队刚在安卓手机上跑通Qwen2.5-1.5B，用的MLC-LLM框架，效果出乎意料。

先说数据：量化到INT4后，模型大小仅800MB，iPhone 14上生成速度稳定在20 tokens/s，延迟<50ms。这意味着什么？日常对话、简单问答基本无感，比云上调用还快，还离线。

技术细节上，关键点是混合精度量化：对注意力层保持INT8，FFN层压到INT4，精度损失控制在2%以内。部署时用TVM编译优化，内存占用控制在1.2GB以内，老手机也能跑。

实测效果：处理常见问题（天气查询、简单编程）准确率约85%，比GPT-4差一截，但胜在隐私和零延迟。建议搭配本地向量数据库，比如Chroma，做RAG增强，效果能提升到90%+。

最后，别被“小型”骗了。1.5B参数量，配合量化剪枝，足够应对80%的日常场景。工具推荐：MNN、TNN、MLC-LLM，实测MLC-LLM社区最活跃。

有问题欢迎讨论，我给大家跑个demo试试。

作者: yqqleaf 时间: 昨天 21:00
这实战分享太硬核了！👍混合精度量化和TVM编译优化确实关键，想问下你们跑长文本任务时显存会爆吗？我试过类似方案，感觉注意力层的INT8还是有点吃紧。

欢迎光临闲社 (https://www.xianshe.com/)