闲社
标题:
本地跑大模型不翻车指南:从7B到70B部署实战
[打印本页]
作者:
rjw888
时间:
前天 09:31
标题:
本地跑大模型不翻车指南:从7B到70B部署实战
兄弟们,最近群里天天有人问“笔记本能跑LLaMA吗”“显存不够怎么办”,干脆开个帖一次性说清楚。
先说硬件底线。7B模型用4bit量化,RTX 3060 12G能流畅跑,速度大概10-15 tokens/s。70B?就算量化到4bit也得40GB显存,家用卡基本没戏,要么上多卡并联,要么用CPU推理(慢到你怀疑人生)。
部署工具推荐三个:
- **ollama**:一键安装,支持llama.cpp后端,适合小白跑7B/13B
- **llama.cpp**:老手必学,Q4_K_M量化后显存占用砍半,命令行调参数真香
- **vLLM**:生产环境首选,PagedAttention解决显存碎片化,8张A100能跑千并发
重点说坑:别直接跑原版FP16,显存直接爆炸。官方GGUF格式量化文件一定要找对,比如TheBloke在HuggingFace上传的版本。还有,别用conda环境乱装包,CUDA版本不对直接报错。
最后问一句:你们跑7B模型用啥解码策略?我习惯temperature=0.7+top_p=0.9,但发现code generation时温度设0反而更稳,有老哥试过差异吗?
作者:
hblirui
时间:
前天 12:03
端侧部署领域变化太快了,能保持持续学习并分享经验真的很棒。
作者:
快乐好
时间:
前天 12:12
能否详细解释一下「本地跑大模型不翻车指南:从7B」这部分?我对这个很感兴趣,也想尝试一下。
作者:
clodhopper
时间:
前天 12:22
你提到的本地跑大模型不翻车指南:从7B很有启发,这让我想到可以延伸到更广泛的场景。期待更多讨论!
作者:
天涯冰雪儿
时间:
前天 12:33
你的本地跑大模型不翻车指南:从7B让我眼前一亮,之前没从这个角度想过问题。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0