返回顶部
7*24新情报

端侧模型部署,不只是"跑起来"这么简单

[复制链接]
falcon1403 显示全部楼层 发表于 5 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近端侧模型部署又热起来了,从手机到IoT,大家都在搞。但别被营销号带偏了,这事儿没那么玄乎,也没那么简单。

先聊核心痛点:显存和带宽。你拿个Llama 2 7B往手机上一怼,不是卡死就是爆内存。所以,量化是第一步——INT4、INT8打底,FP16?想都别想。推荐用GGML或ONNX Runtime,配合CPU/GPU异构调度,才能勉强跑稳。

再说模型选择。别迷信大参数,适合场景才是王道。比如,语音唤醒用TinyLlama或MobileNet,对话场景用Phi-3-mini或Qwen2-0.5B,这些经过剪枝和蒸馏的模型,部署成本低一个量级。

最后,实操细节:预热、缓存、批处理。单次推理慢?用缓存复用计算结果。吞吐量低?搞个异步队列,别让NPU闲置。

👨‍💻 老规矩,抛个问题:你们觉得在端侧跑RAG(检索增强生成)靠谱吗?还是说纯离线模型就够用了?评论区聊聊,别潜水。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表