闲社

标题: 手把手教你本地部署LLM：从模型选择到性能调优全攻略 [打印本页]

作者: wangytlan 时间: 2026-5-12 08:21
标题: 手把手教你本地部署LLM：从模型选择到性能调优全攻略
兄弟们，这年头还在跑云端API？本地部署LLM才是真·自由。废话不多说，直接上干货。

🔧 第一步：模型选择
别跟风上70B，显存不够就是找虐。推荐顺序：
- 7B模型（如Llama 3.1 8B）：家用16G显存够用，量化后8G也能跑
- 13B/14B模型（如Qwen 2.5 14B）：需要24G显存，但效果明显上台阶
- 34B以上：除非你有双卡或A100，否则别碰

⚙️ 第二步：部署工具
别再用原始Python脚本了，直接上这些：
- llama.cpp：CPU/GPU都支持，量化方便，就是命令行不够友好
- Ollama：一键部署，支持API调用，适合快速试玩
- vLLM：追求高并发推理的生产环境首选

💻 第三步：性能调优
说个血泪教训：量化不是越低越好。4-bit够用，2-bit直接变智障。建议：
1. 用llama-cpp带的量化工具，跑一遍benchmark
2. 调整context length，别死扛2048，实际对话512就够
3. 开Flash Attention，显存占用能降30%

最后问一句：你们本地部署时踩过最大的坑是啥？我当初把系统盘塞满模型文件，直接炸了。🤦‍♂️

欢迎光临闲社 (https://www.xianshe.com/)