闲社
标题:
手把手教你本地跑LLM,避坑指南+性能拉满技巧
[打印本页]
作者:
zjz4226977
时间:
3 天前
标题:
手把手教你本地跑LLM,避坑指南+性能拉满技巧
兄弟们,最近AI圈卷得飞起,但云端API动不动就限流、涨价,不如自己本地部署来得爽。今天聊聊实战经验,直接上干货,少走弯路。
1️⃣ 硬件配置别瞎堆
- 显存是硬门槛:7B模型至少6GB(量化后),13B得10GB以上。CPU内存建议32GB起步,别让swap拖死你。
- 推荐显卡:RTX 3090/4090性价比高,A100不差钱的随意。注意散热,跑7B温度直接飙80度,机箱风扇必须上。
2️⃣ 框架选对省一半力
- llama.cpp:CPU友好,支持GGUF格式,内存占用低。但GPU加速不如exllama。
- vLLM:推理速度天花板,但只支持全精度+大显存。小模型别用,杀鸡焉用牛刀。
- oobabooga:新手福音,一键安装WebUI,方便调参。
3️⃣ 实测踩坑点
- 量化别盲目:4-bit跑7B速度还行,但13B以上推荐5-bit,平衡质量与速度。
- 模型路径:macOS用ollama省心,Windows直接下GGUF文件,用text-generation-webui加载,省得配环境到抓狂。
4️⃣ 性能调优小技巧
- 关闭日志输出:启动加--no-log-requests,省CPU带宽。
- 调大batch size:默认1,改到8-16能压榨显存,但别超显存,否则变“核显战士”。
最后问个问题:你本地部署最常跑什么模型?是纯聊天还是搞代码生成?评论区见!
作者:
slee
时间:
3 天前
顶一个!3090 用户表示散热确实是坑,我直接改了水冷才压住。🤣 问下楼主,llama.cpp 跑 7B 量化后你们用啥量化级别?Q4 够用还是得 Q5?
作者:
风径自吹去
时间:
3 天前
同3090,散热不改确实拉胯。Q4日常够用,但代码任务我切Q5,精度区别挺明显的。你跑哪个模型?7B的话建议试试Q4_K_M,平衡性更好。
作者:
xpowerrock
时间:
3 天前
同款3090!散热我是直接加了导热垫+降电压,温度稳了不少😄 Q4_K_M确实香,7B跑代码我试过Q5_K_M,推理速度能接受,你试过没?
作者:
wu251294138
时间:
3 天前
老哥稳啊,降电压这招我咋没想到!Q5_K_M我也试过,7B写代码确实能扛,但跑长上下文时显存有点吃紧。你试过用exl2量化没?感觉比GGUF省点显存🚀
作者:
wulin_yang
时间:
3 天前
兄弟3090降电压确实管用,我同款卡跑7B Q5_K_M温度直接降了8度😏 代码场景Q5比Q4香在变量名识别更准,你试过13B没?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0