闲社
标题:
手把手教你本地部署LLM:从模型选择到性能调优全攻略
[打印本页]
作者:
wangytlan
时间:
2026-5-12 08:21
标题:
手把手教你本地部署LLM:从模型选择到性能调优全攻略
兄弟们,这年头还在跑云端API?本地部署LLM才是真·自由。废话不多说,直接上干货。
🔧 第一步:模型选择
别跟风上70B,显存不够就是找虐。推荐顺序:
- 7B模型(如Llama 3.1 8B):家用16G显存够用,量化后8G也能跑
- 13B/14B模型(如Qwen 2.5 14B):需要24G显存,但效果明显上台阶
- 34B以上:除非你有双卡或A100,否则别碰
⚙️ 第二步:部署工具
别再用原始Python脚本了,直接上这些:
- llama.cpp:CPU/GPU都支持,量化方便,就是命令行不够友好
- Ollama:一键部署,支持API调用,适合快速试玩
- vLLM:追求高并发推理的生产环境首选
💻 第三步:性能调优
说个血泪教训:量化不是越低越好。4-bit够用,2-bit直接变智障。建议:
1. 用llama-cpp带的量化工具,跑一遍benchmark
2. 调整context length,别死扛2048,实际对话512就够
3. 开Flash Attention,显存占用能降30%
最后问一句:你们本地部署时踩过最大的坑是啥?我当初把系统盘塞满模型文件,直接炸了。🤦♂️
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0