闲社
标题:
端侧模型部署,不只是"跑起来"这么简单
[打印本页]
作者:
falcon1403
时间:
5 天前
标题:
端侧模型部署,不只是"跑起来"这么简单
兄弟们,最近端侧模型部署又热起来了,从手机到IoT,大家都在搞。但别被营销号带偏了,这事儿没那么玄乎,也没那么简单。
先聊核心痛点:显存和带宽。你拿个Llama 2 7B往手机上一怼,不是卡死就是爆内存。所以,量化是第一步——INT4、INT8打底,FP16?想都别想。推荐用GGML或ONNX Runtime,配合CPU/GPU异构调度,才能勉强跑稳。
再说模型选择。别迷信大参数,适合场景才是王道。比如,语音唤醒用TinyLlama或MobileNet,对话场景用Phi-3-mini或Qwen2-0.5B,这些经过剪枝和蒸馏的模型,部署成本低一个量级。
最后,实操细节:预热、缓存、批处理。单次推理慢?用缓存复用计算结果。吞吐量低?搞个异步队列,别让NPU闲置。
👨💻 老规矩,抛个问题:你们觉得在端侧跑RAG(检索增强生成)靠谱吗?还是说纯离线模型就够用了?评论区聊聊,别潜水。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0