本地跑LLM这事儿，我劝你先搞清这几个坑🔥

显示全部楼层

兄弟们，本地部署LLM最近是真火，但别急着冲。我踩了仨月坑，说点干货。

**硬件这块别头铁**
别信什么“8G显存跑70B模型”，那是量化后的残废版。真要实战，至少16G显存起步，推荐RTX 4090或A6000。CPU跑？慢到怀疑人生，建议直接上内存条当硬盘用——组个swap都比你快。

**模型选哪个？看场景**
聊天选Llama 3 8B（中文勉强）或Qwen 7B（原生中文友好）；代码用CodeLlama 34B；如果玩RAG，试试Mistral 7B+向量数据库。别盲目追大，70B的模型你本地跑得动？先量化到4-bit再说。

**部署工具别瞎折腾**
Ollama一键部署适合小白，但高级控制还得上llama.cpp或vLLM。建议先用Ollama跑个7B模型体验，再切到llama.cpp调整上下文长度。GPU利用率？别开图形界面跑模型，纯命令行效率翻倍。

**最后说个血泪教训**
别在Windows上硬刚Linux兼容层，WSL2虽然能用，但性能损失10%-20%。直接上Ubuntu 22.04，配合NVIDIA Container Toolkit，Docker部署香多了。

**提问环节**：
你们本地部署时，遇到最离谱的BUG是啥？比如显存溢出还是中文乱码？评论区唠唠。