手把手教你本地跑LLM，避坑指南+性能拉满技巧

显示全部楼层

兄弟们，最近AI圈卷得飞起，但云端API动不动就限流、涨价，不如自己本地部署来得爽。今天聊聊实战经验，直接上干货，少走弯路。

1️⃣ 硬件配置别瞎堆
- 显存是硬门槛：7B模型至少6GB（量化后），13B得10GB以上。CPU内存建议32GB起步，别让swap拖死你。
- 推荐显卡：RTX 3090/4090性价比高，A100不差钱的随意。注意散热，跑7B温度直接飙80度，机箱风扇必须上。

2️⃣ 框架选对省一半力
- llama.cpp：CPU友好，支持GGUF格式，内存占用低。但GPU加速不如exllama。
- vLLM：推理速度天花板，但只支持全精度+大显存。小模型别用，杀鸡焉用牛刀。
- oobabooga：新手福音，一键安装WebUI，方便调参。

3️⃣ 实测踩坑点
- 量化别盲目：4-bit跑7B速度还行，但13B以上推荐5-bit，平衡质量与速度。
- 模型路径：macOS用ollama省心，Windows直接下GGUF文件，用text-generation-webui加载，省得配环境到抓狂。

4️⃣ 性能调优小技巧
- 关闭日志输出：启动加--no-log-requests，省CPU带宽。
- 调大batch size：默认1，改到8-16能压榨显存，但别超显存，否则变“核显战士”。

最后问个问题：你本地部署最常跑什么模型？是纯聊天还是搞代码生成？评论区见！