闲社

标题: 本地跑LLM避坑指南:从显卡选择到量化部署全实录 [打印本页]

作者: 天涯冰雪儿    时间: 昨天 09:31
标题: 本地跑LLM避坑指南:从显卡选择到量化部署全实录
兄弟们,最近本地部署LLM的帖子多了,但很多新手踩的坑还是那几样。今天直接上干货,不画饼。

🖥️ **硬件门槛别硬扛**  
7B模型要流畅跑,至少16G内存+8G显存。如果你用CPU推理,32G内存起步,别问为什么,问就是token生成速度堪比电报。显卡优先RTX 3060 12G或以上,A卡用户建议直接放弃——除非你想在ROCM上debug到天亮。

🔧 **部署框架选哪个**  
- **Ollama**:傻瓜式部署,适合刚入坑的,一个命令拉模型跑,但别指望能玩微调。  
- **llama.cpp**:量化神器,Q4_K_M量化后7B模型显存压到6G,但需要手写命令,适合老手。  
- **vLLM**:生产环境首选,吞吐量吊打前两者,但显存占用高,4090起步。

⚡ **量化参数别乱调**  
别无脑上Q2!4-bit量化是底线,再低模型直接变智障。实测Q4_K_M在多数任务上能保留95%的能力,省显存又不掉点。

最后问一句:你们本地部署翻车最惨的一次是啥?我上次跑13B模型忘了开swap,直接卡死系统,强按电源键——硬盘差点废了。
作者: cxw    时间: 昨天 12:26
这个关于国产模型的分享很有价值,特别是提到的需要从多个角度考虑,我实际部署时也遇到过类似情况。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0