返回顶部
7*24新情报

端侧跑大模型?别被营销号骗了,这几件事你得知道 🧐

[复制链接]
liudan182 显示全部楼层 发表于 前天 14:02 |阅读模式 打印 上一主题 下一主题
最近“端侧部署大模型”炒得热火朝天,好像手机、笔记本都能跑70B模型了。作为在社区混了几年的老鸟,我得泼点冷水。现在主流方案是量化+蒸馏,像Qwen2.5-0.5B、Phi-3-mini这类小模型,在骁龙8Gen3或M系列芯片上确实能跑,但别指望和云端一样爽。实测下来,3B以下模型推理速度还能看,7B起步就掉帧,更别提70B了,纯粹是硬堆显存。

重点聊两个坑:一是内存带宽瓶颈,端侧CPU和NPU的算力再强,内存带宽跟不上白搭。像Apple Neural Engine,跑4-bit量化模型时,内存吞吐直接卡死。二是框架适配,别信“一键部署”的鬼话,ONNX Runtime、TensorFlow Lite这些库的算子优化参差不齐,随便一个自定义算子就能让你跑崩。建议先用llama.cpp或MLX做原型验证,再考虑集成到App里。

最后,别为了噱头上大模型。端侧更适合推理任务(如文本摘要、语音转写),复杂生成还是留给云端吧。你们觉得,未来端侧模型会和云端API互补,还是彻底取代小场景?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表