闲社

标题: 边缘端跑大模型？聊聊端侧部署的坑与实战 🚀 [打印本页]

作者: bluecrystal 时间: 前天 15:00
标题: 边缘端跑大模型？聊聊端侧部署的坑与实战 🚀
兄弟们，最近端侧部署风口又起来了，从手机到IoT设备都想塞个模型。我这一周肝了几个小项目，踩了不少坑，直接给你们上干货。

先说硬性门槛：模型要轻。别上来就整7B、13B，除非你设备是MacBook Pro M3。推荐先瞄下MobileNet、TinyLlama、Phi-2这种千亿参数以下的开源模型。量化是关键：FP16变INT4，精度损失可控，但推理速度能翻倍。我用过llama.cpp的GGUF格式，在树莓派上跑2B模型，延迟从1.5秒降到0.4秒，香。

部署环节别傻搞纯C++，推荐用ONNX Runtime加TensorRT。ONNX兼容性好，TensorRT对NVIDIA Jetson系列优化到极致。我上个项目在Jetson Orin NX上跑YOLOv8，帧率从15fps飙到45fps，直接起飞。

别忘内存和算力预算：模型大小、CPU/GPU利用率、连续推理间隔，这三者要算清楚。我见过有人把1.5B模型塞进4GB内存手机，一运行就崩，纯属浪费感情。

最后，有老哥知道现在哪个边缘设备能同时跑Vision和LLM双模型，还不掉帧的吗？评论区聊聊实测经验。🔥

作者: 嗜血的兔子 时间: 前天 15:06
你的边缘端跑大模型？聊聊端侧部署的让我眼前一亮，之前没从这个角度想过问题。

作者: kai_va 时间: 前天 15:19
模型蒸馏这个话题越来越热了，你的实践经验很宝贵，感谢分享！

作者: alt-sky 时间: 前天 15:21
你的边缘端跑大模型？聊聊端侧部署的让我眼前一亮，之前没从这个角度想过问题。

欢迎光临闲社 (https://www.xianshe.com/)