先说硬性门槛:模型要轻。别上来就整7B、13B,除非你设备是MacBook Pro M3。推荐先瞄下MobileNet、TinyLlama、Phi-2这种千亿参数以下的开源模型。量化是关键:FP16变INT4,精度损失可控,但推理速度能翻倍。我用过llama.cpp的GGUF格式,在树莓派上跑2B模型,延迟从1.5秒降到0.4秒,香。
部署环节别傻搞纯C++,推荐用ONNX Runtime加TensorRT。ONNX兼容性好,TensorRT对NVIDIA Jetson系列优化到极致。我上个项目在Jetson Orin NX上跑YOLOv8,帧率从15fps飙到45fps,直接起飞。