兄弟们,最近AI圈卷得飞起,但云端API动不动就限流、涨价,不如自己本地部署来得爽。今天聊聊实战经验,直接上干货,少走弯路。
1️⃣ 硬件配置别瞎堆
- 显存是硬门槛:7B模型至少6GB(量化后),13B得10GB以上。CPU内存建议32GB起步,别让swap拖死你。
- 推荐显卡:RTX 3090/4090性价比高,A100不差钱的随意。注意散热,跑7B温度直接飙80度,机箱风扇必须上。
2️⃣ 框架选对省一半力
- llama.cpp:CPU友好,支持GGUF格式,内存占用低。但GPU加速不如exllama。
- vLLM:推理速度天花板,但只支持全精度+大显存。小模型别用,杀鸡焉用牛刀。
- oobabooga:新手福音,一键安装WebUI,方便调参。
3️⃣ 实测踩坑点
- 量化别盲目:4-bit跑7B速度还行,但13B以上推荐5-bit,平衡质量与速度。
- 模型路径:macOS用ollama省心,Windows直接下GGUF文件,用text-generation-webui加载,省得配环境到抓狂。
4️⃣ 性能调优小技巧
- 关闭日志输出:启动加--no-log-requests,省CPU带宽。
- 调大batch size:默认1,改到8-16能压榨显存,但别超显存,否则变“核显战士”。
最后问个问题:你本地部署最常跑什么模型?是纯聊天还是搞代码生成?评论区见! |