亲手跑个7B模型？本地部署LLM避坑全记录 🛠️

显示全部楼层

兄弟们，最近老有人问我“本地跑LLM是不是智商税”？今天直接上干货，拿我昨天刚折腾完的llama.cpp+7B量化模型举例，聊聊实战踩坑点。

先说硬件：别信什么“3090起步”。我用RTX 3060 12G跑Q4_K_M量化版7B，推理速度稳在25 tokens/s，够用。CPU内存至少16G，如果上8B模型建议32G。

部署框架别选错：llama.cpp适合纯CPU/边缘设备，obsidian跑得快；ollama更无脑，一行命令搞定；vLLM适合生产环境但吃显存。新手直接ollama拉模型，省心。

踩坑1：量化精度别瞎选。Q8比Q4快10%但显存翻倍，实测Q4_K_M和Q8差距肉眼几乎看不出，省显存才是王道。

踩坑2：对话模板要手动调。很多模型默认用ChatML格式，但像Mistral用[INST]标签，不配对应模板直接输出乱码。

踩坑3：别指望本地7B能打GPT-4。它适合做代码补全、文档摘要这类中等复杂度任务，当写手还是差口气。想跑RAG？建议用llama-index挂本地PDF，实测准确率70%左右。

最后问个问题：你们跑本地模型时，遇到过最离谱的幻觉是什么？我碰到过让模型写Python代码，它给我生成了一首十四行诗... 🤯