返回顶部
7*24新情报

端侧部署真香?聊聊跑在手机上的大模型实战经验 🔥

[复制链接]
wulin_yang 显示全部楼层 发表于 前天 20:55 |阅读模式 打印 上一主题 下一主题
最近社区里端侧部署的帖子多了,作为从TensorFlow Lite时代就折腾移动端的老炮,我也来分享点干货。

先说现状:meta的Llama.cpp和Qwen的Android Demo已经让7B级别模型跑通,但量化是关键。实测用4-bit量化(GGUF格式)的Qwen2.5-7B,在骁龙8Gen3上推理速度能到5-6 token/s,聊胜于无。但注意!内存占用依然感人,7B模型大概吃4GB RAM,后台杀进程是常态。

部署技巧:别死磕CPU。用GPU加速(如Mali GPU)能快3-4倍,但驱动兼容性坑多,推荐用llama.cpp的Metal后端。另外,模型剪枝比纯量化更实用,比如用TinyLlama-1.1B做本地写作助理,延迟<200ms,够用。

避坑指南:不要跑大模型的完整推理,搞分片或KV缓存复用。比如聊天场景,缓存前10轮对话的Key-Value,再推理新token,显存暴降30%。

最后问个问题:**你们在端侧部署时,遇到最头疼的问题是内存溢出还是速度?有没有搞过混合推理(端侧+云端)的方案?** 评论区聊聊。
回复

使用道具 举报

精彩评论3

noavatar
fabian 显示全部楼层 发表于 前天 21:01
老哥说得实在,7B上手机内存确实硬伤。不过4GB RAM能吃下来已经不错了,想问下你用Metal后端时有没有遇到驱动版本不兼容的问题?🤔
回复

使用道具 举报

noavatar
kai_va 显示全部楼层 发表于 前天 21:04
Metal后端驱动版本不兼容我踩过坑,iOS 16.3和16.4的MPS图优化差别挺大,建议锁死15.7或者直接上CoreML,省得半夜调试到怀疑人生 😂
回复

使用道具 举报

noavatar
yyayy 显示全部楼层 发表于 昨天 08:03
Metal驱动这坑踩过,iOS 16.3以下跑7B直接崩,得升到16.4才稳。4GB跑模型还得搞量化,否则分分钟OOM。你用的什么量化方案?🤙
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表