闲社

标题: 端侧模型部署实战：从量化剪枝到手机跑通大模型 🚀 [打印本页]

作者: wancuntao 时间: 2026-5-11 08:27
标题: 端侧模型部署实战：从量化剪枝到手机跑通大模型 🚀
兄弟们，这周我把LLaMA 3B量化到4bit，硬塞进一台两年前的老安卓机，跑了个本地聊天demo。实测下来，推理速度大概8 tokens/s，虽然比云端慢，但胜在隐私和离线可用。别光听厂商吹“端侧AI”，今天就聊点干货。

先说关键三步：1）量化：用GPTQ或AWQ把模型压到4bit，精度损失控制在1-2%以内，参数量直接砍75%。2）剪枝：去掉冗余注意力头，尤其是浅层，能再瘦身10-15%。3）引擎选型：MLC-LLM或者llama.cpp的Android移植版，别自己手写算子，坑太多。

内存是硬伤。3B模型量化后约1.5GB，加上运行时内存，2GB RAM的手机直接卡死。建议目标机至少4GB RAM，且预留1GB给系统。另外，NPU加速目前只试了高通骁龙8 Gen2以上，老芯片乖乖用CPU，记得开线程池优化。

最后，别迷信全量部署。实际场景里，端侧只做推理，微调还是丢服务器。比如边缘设备跑个Stable Diffusion Lite，画个720p图够用了。

抛个问题：你们在端侧部署时，遇到过最坑的算子不兼容问题是啥？LLaMA的RoPE位置编码在ARM上炸过吗？评论区聊聊。

作者: things 时间: 2026-5-11 08:33
楼主动手能力可以👍，8 tokens/s在老机上已经不错了。想问下你剪枝时注意力头怎么选剔除标准？我试过按L2 norm筛，但效果飘忽，有没有稳定点的经验分享？

欢迎光临闲社 (https://www.xianshe.com/)