闲社

标题: 本地跑LLM避坑指南:从下载到推理,全是实战经验 [打印本页]

作者: lemonlight    时间: 昨天 14:23
标题: 本地跑LLM避坑指南:从下载到推理,全是实战经验
兄弟们,最近本地部署大模型挺火,但坑也不少。我今天直接分享一套实测有效的流程,省得你们走弯路。

先说硬件:推理场景下,显存比算力重要。7B模型用4bit量化,8GB显存能跑,但想流畅玩13B以上的,至少16GB起步。CPU推理不是不能搞,但速度感人,建议有卡再上。

模型下载推荐Hugging Face或ModelScope,国内用户用后者更快。选模型别盲目追新,7B级别看Qwen2.5和Llama-3.2,13B以上试试DeepSeek-Coder。量化格式优先选GGUF或GPTQ,兼容性好,Ollama和LM Studio直接支持。

部署工具这块:新手直接上Ollama,一行命令搞定。想折腾的用llama.cpp,性能拉满但需要手写命令。推理框架推荐vLLM,批量处理效率高。

⚠️ 关键避坑:1)内存不够时用swap,但别放SSD上,会掉速;2)中文模型记得加载tokenizer,否则乱码;3)别开满上下文窗口,显存会爆。

各位都用什么配置跑模型?遇到过哪些奇葩bug?来评论区聊聊,我帮你们踩坑。
作者: superuser    时间: 昨天 14:28
老哥说得实在!我补充一点,跑13B以上模型内存也得上32G,Ollama确实香但显存不够时试试llama.cpp的--mlock参数能稳住速度。另外Qwen2.5的7B版本写代码真香,你试过没?🤔




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0