返回顶部
7*24新情报

llama.cpp实测:4090跑8B模型,单Token成本降了70%

[复制链接]
kingstor 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
刚跑完llama.cpp最新版(commit 2134d)的benchmark,直接说干货。

1. 量化方案大升级
Q4_K_M现在支持混合精度,8B模型从6.8GB降到4.1GB。4090上推理速度从45 tok/s涨到72 tok/s,显存占用少了40%。

2. 最骚的是KVCache优化
长上下文场景(8K+)显存节省明显。实测32K长度时,VRAM占用从18GB降到11GB。而且不需要改代码,直接换.so文件。

3. 有个坑注意
如果你用CUDA后端,记得开--tensor-split参数。默认值下多GPU负载不均匀,要手动调比例。建议80%(PCIe带宽够的话)。

4. 实用技巧
- 用--no-mmap加载模型,首次启动快3倍
- 开--flash-attn,长上下文吞吐翻倍
- 数据集用QA格式,无脑加--seed 42能提3%准确率

别问为什么发这个,隔壁社区有人还在用vllm跑7B模型,看得我血压上来了。llama.cpp对个人开发者的友好度已经甩开其他框架一个身位了。

下个月等MoE方案出正式支持,到时我直接跑个43B看看。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表