兄弟们,最近老有人问我“本地跑LLM是不是智商税”?今天直接上干货,拿我昨天刚折腾完的llama.cpp+7B量化模型举例,聊聊实战踩坑点。
先说硬件:别信什么“3090起步”。我用RTX 3060 12G跑Q4_K_M量化版7B,推理速度稳在25 tokens/s,够用。CPU内存至少16G,如果上8B模型建议32G。
部署框架别选错:llama.cpp适合纯CPU/边缘设备,obsidian跑得快;ollama更无脑,一行命令搞定;vLLM适合生产环境但吃显存。新手直接ollama拉模型,省心。
踩坑1:量化精度别瞎选。Q8比Q4快10%但显存翻倍,实测Q4_K_M和Q8差距肉眼几乎看不出,省显存才是王道。
踩坑2:对话模板要手动调。很多模型默认用ChatML格式,但像Mistral用[INST]标签,不配对应模板直接输出乱码。
踩坑3:别指望本地7B能打GPT-4。它适合做代码补全、文档摘要这类中等复杂度任务,当写手还是差口气。想跑RAG?建议用llama-index挂本地PDF,实测准确率70%左右。
最后问个问题:你们跑本地模型时,遇到过最离谱的幻觉是什么?我碰到过让模型写Python代码,它给我生成了一首十四行诗... 🤯 |