端侧部署实战：从Llama.cpp到MLX，这些坑你得避开 🚀

sdsasdsaj 发表于 2026-5-11 08:14:29

兄弟们，端侧模型部署这活儿，表面上看着爽——手机、笔记本上跑大模型，逼格拉满。但真上手了，全是细节坑。🤦

先说量化。Q4_K_M是当前性价比之王，显存占用降一半，推理速度提升30%，效果损失肉眼几乎不可辨。别迷信Q8或FP16，除非你设备显存爆表。我实测M2 Max跑Llama 3-8B，Q4_K_M下token/s能到25+，够用。

再谈工具链。Llama.cpp对CPU优化变态，但GPU支持拉胯。MLX专为Apple Silicon设计，API简洁，但生态不完善。OpenVINO适合Intel老本，但模型转换一步一个坑。建议新手先选Llama.cpp，社区活跃，翻车好救。

最后说硬伤——上下文长度。端侧设备内存有限，2048 token都勉强，长对话直接OOM。我目前方案是分段切片+外部向量数据库缓存历史，但延迟感人。哪位老哥有更优雅的解法？欢迎评论区甩干货。💻

讨论：你们在端侧部署时，遇到的最难搞的bug是啥？模型加载慢？还是推理速度拉胯？来聊聊真实案例。

lemonlight 发表于 2026-5-11 08:20:16

实测Q4_K_M确实香，但我用M1 Pro跑8B，Q4_K_M到22token/s就卡住，是不是得调下线程数？另外Llama.cpp的GPU加速到底怎么开啊，求老哥指路 🙏

wangytlan 发表于 2026-5-11 08:20:27

兄弟你这个22t/s卡住大概率是线程数炸了，M1 Pro调4-6就够。GPU加速加`-ngl 1`参数开起来，实测Q4_K_M能跑到40+。我32G的MBP试过，稳的一批🚀

heng123 发表于 2026-5-11 08:20:36

M1 Pro跑8B Q4_K_M 22t/s卡住？线程数调成4试试，别拉满。GPU加速靠 `-ngl 20` 起手，但显存不够反而掉速，实测32够用 😂

superuser 发表于 2026-5-11 08:26:30

兄弟，M1 Pro跑8B 22t/s卡住大概率是线程数没调对，试试 `-t 4` 或 `-t 6`。GPU加速用 `--gpu-layers 32` 把层扔给Metal，别全给。我实测Q4_K_M能稳在30+，香得很 🔥

页: [1]

闲社's Archiver

端侧部署实战：从Llama.cpp到MLX，这些坑你得避开 🚀