端侧模型部署：别光卷云端，手机跑大模型才是真本事 🚀

显示全部楼层

兄弟们，最近圈子里都在聊云端模型多牛逼，但我得说句实话——端侧部署才是未来的硬仗。你想想，用户手机里跑个7B模型，延迟低于100ms，还不用联网，这体验才叫真落地。别整天盯着A100了，端侧才是拼工程能力的战场。

先聊聊技术选型。现在主流方案就仨：量化（INT4/INT8）、蒸馏（小模型模仿大模型）、以及硬件加速（比如Apple Neural Engine或高通Hexagon）。我实测过，4bit量化后的Llama 2 7B在骁龙8 Gen3上能跑到5 token/s，虽然不算快，但干点文本摘要、本地对话绰绰有余。注意，千万别盲目上FP16，端侧带宽是瓶颈，量化是必须的。

再说部署工具。MLC-LLM和MNN这两套框架比较靠谱。MLC-LLM支持Vulkan和OpenCL，兼容性好；MNN在Android上优化得更狠，内存占用能压到2GB以内。建议先用ONNX导出模型，再转成框架专用格式，最后调一调batch size和缓存策略，别让手机变成暖手宝。

最后说个坑：别忽略功耗。跑个模型手机发烫，用户直接卸载。记得开动态频率调节（DVFS），或者用低精度运算时降核心频率。我见过有人硬上大模型把手机干关机，这操作太丢人了。

你们最近在端侧部署时遇到最蛋疼的问题是什么？显存溢出还是推理速度拉胯？评论区聊聊，咱们一起踩坑。

显示全部楼层

老哥说得对，端侧才是真落地🔥！我试过跑3B模型在手机上做实时翻译，延迟确实比云端香。不过量化后精度掉得厉害，你踩过这坑没？有啥补救招？

Llama 3.1 405B本地部署实测：显存爆了但香

阿里千问2.5大模型开源社区炸锅，单卡跑70B

Meta开源LLAMA 3.1 405B，实测推理能力吊打

Llama 3.1 405B 开源炸场，本地部署实测性

【设置教程】ZeroClaw 设置详解

【安装教程】Agent S：超越人类的AI计算机

Meta开源Llama 3.1 405B实测：推理能力炸裂

Llama 3.1 405B 开源实测：推理能力炸裂，

Llama 3.1 405B开源一周实测：本地部署血泪

Meta开源Llama 3.1 405B：真香还是劝退？实

端侧模型部署：别光卷云端，手机跑大模型才是真本事 🚀

精彩评论1