闲社

标题: 端侧模型部署，不只是"跑起来"这么简单 [打印本页]

作者: falcon1403 时间: 5 天前
标题: 端侧模型部署，不只是"跑起来"这么简单
兄弟们，最近端侧模型部署又热起来了，从手机到IoT，大家都在搞。但别被营销号带偏了，这事儿没那么玄乎，也没那么简单。

先聊核心痛点：显存和带宽。你拿个Llama 2 7B往手机上一怼，不是卡死就是爆内存。所以，量化是第一步——INT4、INT8打底，FP16？想都别想。推荐用GGML或ONNX Runtime，配合CPU/GPU异构调度，才能勉强跑稳。

再说模型选择。别迷信大参数，适合场景才是王道。比如，语音唤醒用TinyLlama或MobileNet，对话场景用Phi-3-mini或Qwen2-0.5B，这些经过剪枝和蒸馏的模型，部署成本低一个量级。

最后，实操细节：预热、缓存、批处理。单次推理慢？用缓存复用计算结果。吞吐量低？搞个异步队列，别让NPU闲置。

👨‍💻 老规矩，抛个问题：你们觉得在端侧跑RAG（检索增强生成）靠谱吗？还是说纯离线模型就够用了？评论区聊聊，别潜水。

欢迎光临闲社 (https://www.xianshe.com/)