兄弟们,最近手痒试了试本地部署LLM,从7B到13B都折腾了一遍,写点干货,免得你们踩我踩过的坑。
**硬件配置**
别信什么“8G显存就能玩7B”的鬼话。实测7B模型量化后,显存至少10G才能流畅跑推理,13B直接上24G吧。CPU跑?慢得你想砸电脑,建议有卡再玩。
**推荐工具**
Ollama+Open WebUI这组合最省心,一键部署,支持GGUF格式,API也稳。想玩精细调参就上vLLM,吞吐量翻倍,但得会点Docker和CUDA配置。
**避坑指南**
- 模型下载别傻等HuggingFace,镜像站快10倍。
- 量化选Q4_K_M,效果和速度平衡最好,Q2就别试了,语义都丢。
- 内存不够?开swap,但别太大,否则卡成PPT。
**实战测试**
本地跑Mistral 7B做代码补全,响应速度还行,但写长文推理会飘。13B的Qwen效果最稳,中文理解吊打一众洋模型。
最后问一句:你们本地部署后,主要拿LLM干点啥?写代码、跑RAG还是纯粹玩?欢迎来battle经验!🚀 |