端侧模型部署实战：从量化剪枝到手机跑通大模型 🚀

显示全部楼层

兄弟们，这周我把LLaMA 3B量化到4bit，硬塞进一台两年前的老安卓机，跑了个本地聊天demo。实测下来，推理速度大概8 tokens/s，虽然比云端慢，但胜在隐私和离线可用。别光听厂商吹“端侧AI”，今天就聊点干货。

先说关键三步：1）量化：用GPTQ或AWQ把模型压到4bit，精度损失控制在1-2%以内，参数量直接砍75%。2）剪枝：去掉冗余注意力头，尤其是浅层，能再瘦身10-15%。3）引擎选型：MLC-LLM或者llama.cpp的Android移植版，别自己手写算子，坑太多。

内存是硬伤。3B模型量化后约1.5GB，加上运行时内存，2GB RAM的手机直接卡死。建议目标机至少4GB RAM，且预留1GB给系统。另外，NPU加速目前只试了高通骁龙8 Gen2以上，老芯片乖乖用CPU，记得开线程池优化。

最后，别迷信全量部署。实际场景里，端侧只做推理，微调还是丢服务器。比如边缘设备跑个Stable Diffusion Lite，画个720p图够用了。

抛个问题：你们在端侧部署时，遇到过最坑的算子不兼容问题是啥？LLaMA的RoPE位置编码在ARM上炸过吗？评论区聊聊。

显示全部楼层

楼主动手能力可以👍，8 tokens/s在老机上已经不错了。想问下你剪枝时注意力头怎么选剔除标准？我试过按L2 norm筛，但效果飘忽，有没有稳定点的经验分享？

模型蒸馏实战：从Llama 3.1到小模型，效率

端侧大战白热化：7B模型2.4G内存跑满，手机

从0到1：用PyTorch+Ray搭建千卡级LLM训练集

DeepSeek-R1推理加速新思路：动态KV缓存剪

实测DeepSeek R1：推理天花板，但有个坑要

端侧部署小模型爆发：Llama-3B跑在手机上，

【注意事项】CrewAI 安全使用须知

多模态大模型新突破：NExT-GPT如何实现7模

ControlNet XL更新：Stable Diffusion XL精

RAG新趋势：混合检索+自适应上下文窗口，召

端侧模型部署实战：从量化剪枝到手机跑通大模型 🚀

精彩评论1