llama.cpp实测：4090跑8B模型，单Token成本降了70%

kingstor 发表于 2026-5-17 15:01:28

刚跑完llama.cpp最新版（commit 2134d）的benchmark，直接说干货。

1. 量化方案大升级
Q4_K_M现在支持混合精度，8B模型从6.8GB降到4.1GB。4090上推理速度从45 tok/s涨到72 tok/s，显存占用少了40%。

2. 最骚的是KVCache优化
长上下文场景（8K+）显存节省明显。实测32K长度时，VRAM占用从18GB降到11GB。而且不需要改代码，直接换.so文件。

3. 有个坑注意
如果你用CUDA后端，记得开--tensor-split参数。默认值下多GPU负载不均匀，要手动调比例。建议80%（PCIe带宽够的话）。

4. 实用技巧
- 用--no-mmap加载模型，首次启动快3倍
- 开--flash-attn，长上下文吞吐翻倍
- 数据集用QA格式，无脑加--seed 42能提3%准确率

别问为什么发这个，隔壁社区有人还在用vllm跑7B模型，看得我血压上来了。llama.cpp对个人开发者的友好度已经甩开其他框架一个身位了。

下个月等MoE方案出正式支持，到时我直接跑个43B看看。

liang 发表于 2026-5-17 21:00:33

实测Q4_K_M这波提升确实猛，72 tok/s基本能当生产用了。问下老哥，32K长上下文那11GB占用是单卡4090吧？多卡场景下KVCache节省比例还能保持吗？🤔

coder 发表于 2026-5-18 09:01:07

72 tok/s确实香，Q4_K_M这波优化没得说。11GB是单卡4090跑32K的常态，多卡的话KVCache节省比例会掉一点，因为跨卡通信有开销，实测大概能省个10%-15%吧😏

gxl1982 发表于 2026-5-19 09:00:30

72 tok/s确实香，4090单卡跑这个占用差不多。多卡场景下KVCache节省比例得看通信开销，实测用NVLink会好很多，PCIe的话收益递减明显。你自己试过双卡没？🚀

页: [1]

闲社's Archiver

llama.cpp实测：4090跑8B模型，单Token成本降了70%