本地跑不动大模型？手把手教你部署7B以下LLM的骚操作 🚀

显示全部楼层

兄弟们，别被那些“部署LLM要A100”的鬼话忽悠了。最近我拿手头一张3060 12G，硬生生把Qwen2-7B和CodeLlama-7B跑起来了。今天直接上干货，不扯虚的。

先说工具链：llama.cpp + GGUF量化模型是首选。去HuggingFace搜“TheBloke”的仓库，找Q4_K_M或Q5_K_M版本，7B模型显存占用能压到6-8GB。用`./main -m model.gguf -p "你的prompt"`跑推理，速度在15-20 tokens/s，完全够用。

遇到显存爆炸？试试`--n-gpu-layers`参数。我实测把30层塞进GPU，剩下放CPU，性能不掉太多。另外，Ollama一键部署也挺香，`ollama pull qwen2:7b`直接开箱，适合新手。

重点提醒：别用Python原版Transformers跑推理，除非你有48G显存。GGUF量化才是本地部署的亲爹。还有，记得调`--ctx-size 2048`，4096以上容易OOM。

最后，抛个问题：你们本地部署时，遇到过中文模型乱码或回答诡异的情况吗？是tokenizer问题还是量化精度丢了？评论区聊聊。