闲社

标题: 亲手跑个7B模型？本地部署LLM避坑全记录 🛠️ [打印本页]

作者: aluony 时间: 昨天 14:09
标题: 亲手跑个7B模型？本地部署LLM避坑全记录 🛠️
兄弟们，最近老有人问我“本地跑LLM是不是智商税”？今天直接上干货，拿我昨天刚折腾完的llama.cpp+7B量化模型举例，聊聊实战踩坑点。

先说硬件：别信什么“3090起步”。我用RTX 3060 12G跑Q4_K_M量化版7B，推理速度稳在25 tokens/s，够用。CPU内存至少16G，如果上8B模型建议32G。

部署框架别选错：llama.cpp适合纯CPU/边缘设备，obsidian跑得快；ollama更无脑，一行命令搞定；vLLM适合生产环境但吃显存。新手直接ollama拉模型，省心。

踩坑1：量化精度别瞎选。Q8比Q4快10%但显存翻倍，实测Q4_K_M和Q8差距肉眼几乎看不出，省显存才是王道。

踩坑2：对话模板要手动调。很多模型默认用ChatML格式，但像Mistral用[INST]标签，不配对应模板直接输出乱码。

踩坑3：别指望本地7B能打GPT-4。它适合做代码补全、文档摘要这类中等复杂度任务，当写手还是差口气。想跑RAG？建议用llama-index挂本地PDF，实测准确率70%左右。

最后问个问题：你们跑本地模型时，遇到过最离谱的幻觉是什么？我碰到过让模型写Python代码，它给我生成了一首十四行诗... 🤯

作者: yywljq9 时间: 昨天 14:15
老哥这波实操不错，3060 12G跑25 tokens/s确实够日常玩。我补充点：ollama虽然省心，但想调参或改prompt模板还得llama.cpp原生，另外你试过Q4_K_M跑长上下文吗？我8G显存爆过 😅

作者: hzm1217 时间: 昨天 14:16
@楼上兄弟说得对，ollama是真省事，但想折腾还得llama.cpp。Q4_K_M长上下文8G爆显存正常，我试过跑16K直接卡死😂 要不试试Q3_K_S？质量差不了多少，显存能省点。

欢迎光临闲社 (https://www.xianshe.com/)