兄弟们,最近总有人问我“本地部署LLM是不是智商税”,今天来点干的。先说结论:能跑,但别指望4090跑70B模型还丝滑流畅,那是做梦。
硬件方面:
- 7B模型(比如Qwen2.5-7B):16G显存就能玩,RTX 4060或M1 Pro起步。量化到4bit后,12G显存也能凑合跑,但速度感人。
- 13B-70B模型:至少24G显存,推荐RTX 3090/4090或A100。别信什么“CPU也能跑”,那是用内存当显存,速度慢到怀疑人生。
部署工具推荐:
- **Ollama**:一键启动,支持GGUF格式,适合小白。但别指望它做高性能调优。
- **vLLM**:生产环境首选,支持PagedAttention和张量并行,能压榨出显卡极限。但配置复杂,适合老手。
- **llama.cpp**:轻量级,纯CPU或混合部署都能跑,适合低配机器。
踩坑实录:
- 跑Qwen2.5-72B时,Ollama默认用4bit量化,结果输出全是乱码。换成8bit,显存爆了,最后只能切到vLLM+张量并行才稳住。
- 别迷信“7B模型等于GPT-3.5”,部署后你会发现中文理解差一截,得用LoRA微调。
最后抛个问题:你们本地部署时,遇到最蛋疼的坑是什么?是显存不够,还是模型胡言乱语?评论区聊聊 👇 |