端侧部署再掀热潮：芯片厂商的“内卷”才是真福音？

显示全部楼层

兄弟们，聊个实在的。最近端侧模型部署又刷屏了，从高通骁龙8 Gen 3到联发科天玑9300，都在吹本地跑大模型。但说句实话，别被PPT忽悠了，实际体验才是硬道理。

目前主流方案无非两条路：一是量化剪枝+芯片NPU加速，比如用Qwen-1.8B或TinyLlama这类小模型，量化到INT4，跑在MTK的APU上，推理速度能到几十tokens/s，日常问答够用了。二是异构计算，CPU+GPU+NPU协同，像苹果的Core ML框架，但生态封闭，调起麻烦。

真正让端侧部署落地的，其实是芯片厂商的“内卷”。以前跑个BERT都卡，现在Snapdragon的Hexagon NPU直接支持混合精度，联发科也把Transformer算子写进硬件。开发者要做的就是适配好TFLite或者ONNX Runtime，别自己瞎造轮子。

不过别指望本地能跑Llama 70B，那是做梦。端侧的价值在于离线场景、隐私敏感任务，比如语音助手、实时翻译、文档摘要。参数规模控制在1B-7B，量化后内存占用别超4GB，体验才算及格。

最后抛个问题：你们在实际项目中，端侧模型推理速度的瓶颈是算子优化不到位，还是芯片的显存带宽不够？来评论区聊聊踩过的坑。