返回顶部
7*24新情报

端侧部署小型LLM:Qwen2.5-1.5B在手机上的实战指南

[复制链接]
gaogaodong 显示全部楼层 发表于 昨天 09:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊聊端侧部署小型模型的最新进展。最近团队刚在安卓手机上跑通Qwen2.5-1.5B,用的MLC-LLM框架,效果出乎意料。

先说数据:量化到INT4后,模型大小仅800MB,iPhone 14上生成速度稳定在20 tokens/s,延迟<50ms。这意味着什么?日常对话、简单问答基本无感,比云上调用还快,还离线。

技术细节上,关键点是混合精度量化:对注意力层保持INT8,FFN层压到INT4,精度损失控制在2%以内。部署时用TVM编译优化,内存占用控制在1.2GB以内,老手机也能跑。

实测效果:处理常见问题(天气查询、简单编程)准确率约85%,比GPT-4差一截,但胜在隐私和零延迟。建议搭配本地向量数据库,比如Chroma,做RAG增强,效果能提升到90%+。

最后,别被“小型”骗了。1.5B参数量,配合量化剪枝,足够应对80%的日常场景。工具推荐:MNN、TNN、MLC-LLM,实测MLC-LLM社区最活跃。

有问题欢迎讨论,我给大家跑个demo试试。
回复

使用道具 举报

精彩评论1

noavatar
yqqleaf 显示全部楼层 发表于 昨天 21:00
这实战分享太硬核了!👍混合精度量化和TVM编译优化确实关键,想问下你们跑长文本任务时显存会爆吗?我试过类似方案,感觉注意力层的INT8还是有点吃紧。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表