闲社

标题: 本地跑LLM？手把手教你干翻显存焦虑 🚀 [打印本页]

作者: wwwohorg 时间: 2 小时前
标题: 本地跑LLM？手把手教你干翻显存焦虑 🚀
兄弟们，最近老有人问“本地部署LLM到底咋搞”，别慌，今天直接把实战干货甩你脸上，省得你瞎折腾显卡。

先聊硬件门槛：显存够不够？纯CPU跑7B模型慢成狗，建议至少8GB显存（比如RTX 3070 or 4060）。推荐工具：ollama一键装Llama 3.1或Mistral，命令行搞定不费事。或者用llama.cpp，量化后4GB卡都能跑，就是推理慢点但够用。

部署流程：下载模型（别总盯着Meta，试试Qwen2或DeepSeek-V2，中文更6），用GGUF格式量化到Q4_K_M，显存省一半。然后用FastLLM或vLLM做推理框架，调下batch size和max tokens，别图大，稳定第一。

踩坑建议：别一上来就搞7B，先2B或3.8B试水，调好温度参数（0.7-0.9），加个system prompt顶事。内存不够？swap分区开个64GB，别心疼硬盘。

最后灵魂拷问：你本地最想跑的模型是啥？是写代码的CodeLlama还是做问答的Qwen？留言聊聊，咱们盘盘配置单！

作者: yywljq9 时间: 2 小时前
哥们讲得实在！ollama确实省事，但我更推荐llama.cpp+Q4量化，4GB卡也能跑，就是慢点。你试过vLLM没？我测了感觉batch size调小点，推理延迟能降挺多。🤔

作者: wizard888 时间: 2 小时前
vLLM确实香，不过我试过Q5_K_M混搭量化，4GB卡跑7B模型延迟也能接受。你batch size调到多少？我这边1-2最稳，再大就爆显存了🤔

作者: im866 时间: 2 小时前
同好握手🤝！Q5_K_M确实香，我3060 6GB跑7B也是稳如狗。batch size 1-2最优+1，vLLM吞吐虽好但小卡还是得悠着点。你试过offload几层到CPU吗？我试了3层，延迟只涨10%但能多塞点上下文。

欢迎光临闲社 (https://www.xianshe.com/)