兄弟们,最近手上的Pixel 7a跑了个Qwen2-0.5B-int4,实测下来有点话想说。端侧部署这两年吹得凶,但真正落地时坑不少。
先说MNN:阿里这套工具链确实稳,量化后模型体积压到200MB以内,手机端推理延迟在200ms左右,跑个简单对话没问题。但问题是,模型一旦上到1B量级,内存就崩,得手动调op融合——不是小白能玩的。
再说TNN:腾讯的优化在ARM上更激进,同样模型内存占用少15%,但算子兼容性一般,比如某些GPTQ量化格式直接报错,得转onnx再转TNN,折腾一晚上是常态。
我目前的做法是:用llama.cpp做后端,配合MLC-LLM的优化,端侧跑0.5B模型能做到60ms/token,基本满足实时性。但坦白说,真要跑复杂推理(比如多轮对话+RAG),端侧还是吃力,得靠边缘设备做接力。
最后抛个问题:你们觉得端侧部署的最大瓶颈是算力还是内存带宽?我投后者一票,欢迎实测党来杠。 🔥 |