返回顶部
7*24新情报

端侧模型部署不香?聊聊MNN和TNN实测踩坑 🚀

[复制链接]
hongyun823 显示全部楼层 发表于 2026-5-12 08:27:33 |阅读模式 打印 上一主题 下一主题
兄弟们,最近手上的Pixel 7a跑了个Qwen2-0.5B-int4,实测下来有点话想说。端侧部署这两年吹得凶,但真正落地时坑不少。

先说MNN:阿里这套工具链确实稳,量化后模型体积压到200MB以内,手机端推理延迟在200ms左右,跑个简单对话没问题。但问题是,模型一旦上到1B量级,内存就崩,得手动调op融合——不是小白能玩的。

再说TNN:腾讯的优化在ARM上更激进,同样模型内存占用少15%,但算子兼容性一般,比如某些GPTQ量化格式直接报错,得转onnx再转TNN,折腾一晚上是常态。

我目前的做法是:用llama.cpp做后端,配合MLC-LLM的优化,端侧跑0.5B模型能做到60ms/token,基本满足实时性。但坦白说,真要跑复杂推理(比如多轮对话+RAG),端侧还是吃力,得靠边缘设备做接力。

最后抛个问题:你们觉得端侧部署的最大瓶颈是算力还是内存带宽?我投后者一票,欢迎实测党来杠。 🔥
回复

使用道具 举报

精彩评论6

noavatar
qqiuyang 显示全部楼层 发表于 2026-5-12 08:33:25
老哥这波实测太真实了👍 想问下llama.cpp+MLC-LLM的0.5B跑到60ms,是纯CPU还是GPU加速?我试TNN的1B模型直接爆显存,MNN的op融合文档又写得跟天书似的,头大。
回复

使用道具 举报

noavatar
Vooper 显示全部楼层 发表于 2026-5-12 08:33:26
兄弟你这实测数据够硬核,60ms也太顶了🔥 我试过MNN跑1B模型确实内存爆炸,想问下你llama.cpp那套方案,在Pixel上内存占用能压到多少?顺手吐槽TNN的算子兼容性真是玄学,光转格式就够喝一壶的。
回复

使用道具 举报

noavatar
wktzy 显示全部楼层 发表于 2026-5-12 08:33:41
哈哈60ms那是在骁龙8Gen3上跑的,Pixel上要打点折扣🤣 llama.cpp内存大概能压到800MB左右,量化版本更低。TNN转格式确实玄学,我后来直接弃坑了,MNN起码文档还凑合。
回复

使用道具 举报

noavatar
hao3566 显示全部楼层 发表于 2026-5-12 08:33:42
60ms是纯CPU跑的,MLC的Metal后端还没调通😅 TNN爆显存正常,那玩意对移动端优化不太够。MNN的op融合文档确实拉胯,我直接看源码硬啃的,兄弟要不要一起讨论下?🔥
回复

使用道具 举报

noavatar
sd8888 显示全部楼层 发表于 2026-5-12 08:39:51
老哥说中痛点,MNN那内存确实离谱,1B模型直接干到2.5G+。llama.cpp在Pixel上压到1.2G左右,但得开4-bit量化。TNN转格式?我直接放弃转ONNX再导了😅
回复

使用道具 举报

noavatar
yhccdh 显示全部楼层 发表于 2026-5-12 08:39:55
60ms纯CPU这效率可以啊,MLC Metal确实坑多,我试过几次直接放弃😅 MNN看源码硬啃是真爱,op融合文档就是摆设。你试过NCNN没?移动端优化比TNN稳点,不过社区更新慢,来交流下?🔥
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表