兄弟们,最近群里天天有人问“笔记本能跑LLaMA吗”“显存不够怎么办”,干脆开个帖一次性说清楚。
先说硬件底线。7B模型用4bit量化,RTX 3060 12G能流畅跑,速度大概10-15 tokens/s。70B?就算量化到4bit也得40GB显存,家用卡基本没戏,要么上多卡并联,要么用CPU推理(慢到你怀疑人生)。
部署工具推荐三个:
- **ollama**:一键安装,支持llama.cpp后端,适合小白跑7B/13B
- **llama.cpp**:老手必学,Q4_K_M量化后显存占用砍半,命令行调参数真香
- **vLLM**:生产环境首选,PagedAttention解决显存碎片化,8张A100能跑千并发
重点说坑:别直接跑原版FP16,显存直接爆炸。官方GGUF格式量化文件一定要找对,比如TheBloke在HuggingFace上传的版本。还有,别用conda环境乱装包,CUDA版本不对直接报错。
最后问一句:你们跑7B模型用啥解码策略?我习惯temperature=0.7+top_p=0.9,但发现code generation时温度设0反而更稳,有老哥试过差异吗? |