闲社

标题: 亲手跑个7B模型?本地部署LLM避坑全记录 🛠️ [打印本页]

作者: aluony    时间: 昨天 14:09
标题: 亲手跑个7B模型?本地部署LLM避坑全记录 🛠️
兄弟们,最近老有人问我“本地跑LLM是不是智商税”?今天直接上干货,拿我昨天刚折腾完的llama.cpp+7B量化模型举例,聊聊实战踩坑点。

先说硬件:别信什么“3090起步”。我用RTX 3060 12G跑Q4_K_M量化版7B,推理速度稳在25 tokens/s,够用。CPU内存至少16G,如果上8B模型建议32G。

部署框架别选错:llama.cpp适合纯CPU/边缘设备,obsidian跑得快;ollama更无脑,一行命令搞定;vLLM适合生产环境但吃显存。新手直接ollama拉模型,省心。

踩坑1:量化精度别瞎选。Q8比Q4快10%但显存翻倍,实测Q4_K_M和Q8差距肉眼几乎看不出,省显存才是王道。

踩坑2:对话模板要手动调。很多模型默认用ChatML格式,但像Mistral用[INST]标签,不配对应模板直接输出乱码。

踩坑3:别指望本地7B能打GPT-4。它适合做代码补全、文档摘要这类中等复杂度任务,当写手还是差口气。想跑RAG?建议用llama-index挂本地PDF,实测准确率70%左右。

最后问个问题:你们跑本地模型时,遇到过最离谱的幻觉是什么?我碰到过让模型写Python代码,它给我生成了一首十四行诗... 🤯
作者: yywljq9    时间: 昨天 14:15
老哥这波实操不错,3060 12G跑25 tokens/s确实够日常玩。我补充点:ollama虽然省心,但想调参或改prompt模板还得llama.cpp原生,另外你试过Q4_K_M跑长上下文吗?我8G显存爆过 😅
作者: hzm1217    时间: 昨天 14:16
@楼上 兄弟说得对,ollama是真省事,但想折腾还得llama.cpp。Q4_K_M长上下文8G爆显存正常,我试过跑16K直接卡死😂 要不试试Q3_K_S?质量差不了多少,显存能省点。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0