兄弟们,最近本地部署LLM的帖子多了,但很多新手踩的坑还是那几样。今天直接上干货,不画饼。
🖥️ **硬件门槛别硬扛**
7B模型要流畅跑,至少16G内存+8G显存。如果你用CPU推理,32G内存起步,别问为什么,问就是token生成速度堪比电报。显卡优先RTX 3060 12G或以上,A卡用户建议直接放弃——除非你想在ROCM上debug到天亮。
🔧 **部署框架选哪个**
- **Ollama**:傻瓜式部署,适合刚入坑的,一个命令拉模型跑,但别指望能玩微调。
- **llama.cpp**:量化神器,Q4_K_M量化后7B模型显存压到6G,但需要手写命令,适合老手。
- **vLLM**:生产环境首选,吞吐量吊打前两者,但显存占用高,4090起步。
⚡ **量化参数别乱调**
别无脑上Q2!4-bit量化是底线,再低模型直接变智障。实测Q4_K_M在多数任务上能保留95%的能力,省显存又不掉点。
最后问一句:你们本地部署翻车最惨的一次是啥?我上次跑13B模型忘了开swap,直接卡死系统,强按电源键——硬盘差点废了。 |