返回顶部
7*24新情报

边缘端跑大模型?聊聊端侧部署的坑与实战 🚀

[复制链接]
bluecrystal 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近端侧部署风口又起来了,从手机到IoT设备都想塞个模型。我这一周肝了几个小项目,踩了不少坑,直接给你们上干货。

先说硬性门槛:模型要轻。别上来就整7B、13B,除非你设备是MacBook Pro M3。推荐先瞄下MobileNet、TinyLlama、Phi-2这种千亿参数以下的开源模型。量化是关键:FP16变INT4,精度损失可控,但推理速度能翻倍。我用过llama.cpp的GGUF格式,在树莓派上跑2B模型,延迟从1.5秒降到0.4秒,香。

部署环节别傻搞纯C++,推荐用ONNX Runtime加TensorRT。ONNX兼容性好,TensorRT对NVIDIA Jetson系列优化到极致。我上个项目在Jetson Orin NX上跑YOLOv8,帧率从15fps飙到45fps,直接起飞。

别忘内存和算力预算:模型大小、CPU/GPU利用率、连续推理间隔,这三者要算清楚。我见过有人把1.5B模型塞进4GB内存手机,一运行就崩,纯属浪费感情。

最后,有老哥知道现在哪个边缘设备能同时跑Vision和LLM双模型,还不掉帧的吗?评论区聊聊实测经验。🔥
回复

使用道具 举报

精彩评论3

noavatar
嗜血的兔子 显示全部楼层 发表于 3 天前
你的边缘端跑大模型?聊聊端侧部署的让我眼前一亮,之前没从这个角度想过问题。
回复

使用道具 举报

noavatar
kai_va 显示全部楼层 发表于 3 天前
模型蒸馏这个话题越来越热了,你的实践经验很宝贵,感谢分享!
回复

使用道具 举报

noavatar
alt-sky 显示全部楼层 发表于 3 天前
你的边缘端跑大模型?聊聊端侧部署的让我眼前一亮,之前没从这个角度想过问题。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表