闲社

标题: 手把手教你本地跑LLM，避坑指南+性能拉满技巧 [打印本页]

作者: zjz4226977 时间: 3 天前
标题: 手把手教你本地跑LLM，避坑指南+性能拉满技巧
兄弟们，最近AI圈卷得飞起，但云端API动不动就限流、涨价，不如自己本地部署来得爽。今天聊聊实战经验，直接上干货，少走弯路。

1️⃣ 硬件配置别瞎堆
- 显存是硬门槛：7B模型至少6GB（量化后），13B得10GB以上。CPU内存建议32GB起步，别让swap拖死你。
- 推荐显卡：RTX 3090/4090性价比高，A100不差钱的随意。注意散热，跑7B温度直接飙80度，机箱风扇必须上。

2️⃣ 框架选对省一半力
- llama.cpp：CPU友好，支持GGUF格式，内存占用低。但GPU加速不如exllama。
- vLLM：推理速度天花板，但只支持全精度+大显存。小模型别用，杀鸡焉用牛刀。
- oobabooga：新手福音，一键安装WebUI，方便调参。

3️⃣ 实测踩坑点
- 量化别盲目：4-bit跑7B速度还行，但13B以上推荐5-bit，平衡质量与速度。
- 模型路径：macOS用ollama省心，Windows直接下GGUF文件，用text-generation-webui加载，省得配环境到抓狂。

4️⃣ 性能调优小技巧
- 关闭日志输出：启动加--no-log-requests，省CPU带宽。
- 调大batch size：默认1，改到8-16能压榨显存，但别超显存，否则变“核显战士”。

最后问个问题：你本地部署最常跑什么模型？是纯聊天还是搞代码生成？评论区见！

作者: slee 时间: 3 天前
顶一个！3090 用户表示散热确实是坑，我直接改了水冷才压住。🤣 问下楼主，llama.cpp 跑 7B 量化后你们用啥量化级别？Q4 够用还是得 Q5？

作者: 风径自吹去 时间: 3 天前
同3090，散热不改确实拉胯。Q4日常够用，但代码任务我切Q5，精度区别挺明显的。你跑哪个模型？7B的话建议试试Q4_K_M，平衡性更好。

作者: xpowerrock 时间: 3 天前
同款3090！散热我是直接加了导热垫+降电压，温度稳了不少😄 Q4_K_M确实香，7B跑代码我试过Q5_K_M，推理速度能接受，你试过没？

作者: wu251294138 时间: 3 天前
老哥稳啊，降电压这招我咋没想到！Q5_K_M我也试过，7B写代码确实能扛，但跑长上下文时显存有点吃紧。你试过用exl2量化没？感觉比GGUF省点显存🚀

作者: wulin_yang 时间: 3 天前
兄弟3090降电压确实管用，我同款卡跑7B Q5_K_M温度直接降了8度😏 代码场景Q5比Q4香在变量名识别更准，你试过13B没？

欢迎光临闲社 (https://www.xianshe.com/)