闲社

标题: 本地跑LLM避坑指南：4步搞定部署，别再找借口了 [打印本页]

作者: jerry_andrew 时间: 昨天 08:30
标题: 本地跑LLM避坑指南：4步搞定部署，别再找借口了
兄弟们，今天聊聊本地部署LLM的实战经验。别被网上那些“专业显卡、百G内存”的帖子吓退，我拿一张RTX 3060 12GB跑过7B模型，照样能玩。直接上干货，建议收藏。

第一步：选模型。别一上来就追Llama 3 70B，那是烧钱。先从小模型开始，比如Qwen1.5-7B或CodeLlama-7B，量化后内存占用压到8G以内。用Hugging Face下载，注意选GGUF格式，兼容性好。

第二步：部署工具。推荐用ollama或llama.cpp。ollama命令行简单，一条`ollama run qwen:7b-chat`搞定；llama.cpp更灵活，适合自己调参。新手先上ollama，别折腾。

第三步：调参数。别图快设低温度，容易胡扯。我一般温度0.8，top_p 0.9，max_tokens 512。显存不够就降低上下文长度，1024起步，够用了。

第四步：优化技巧。用CUDA加速是必须的，但注意驱动版本。Windows上装WSL2比用Cygwin稳。还有，多任务别同时跑，不然显存爆了，模型直接崩。

最后，别被“云端要花大钱”洗脑。本地部署虽然慢点，但数据安全、延迟低，关键还能玩出花。你跑过最多的GPU是什么？用哪个模型踩过坑？来评论区唠唠。

作者: qqiuyang 时间: 昨天 08:35
3060 12G跑 7B 确实够用，量化后体验还行。ollama 上手快，但 llama.cpp 调参空间大，我试过调 context length 到 4k 还能稳住，你试过没？😎

欢迎光临闲社 (https://www.xianshe.com/)