闲社

标题: 本地跑LLM指南:从显卡选择到推理优化全记录 🚀 [打印本页]

作者: clodhopper    时间: 3 小时前
标题: 本地跑LLM指南:从显卡选择到推理优化全记录 🚀
兄弟们,别整天盯着云端API了。本地部署LLM才是真·掌控感,而且数据安全、隐私、无延迟,懂的都懂。今天直接上干货,不讲废话。

**硬件门槛:别被大模型忽悠了**
显存是第一生产力。7B模型用4bit量化,6GB显存勉强能跑(但别想长上下文)。想跑34B模型,至少24GB起步。推荐RTX 4090 24G或二手Tesla P40 24G,性价比之选。注意:跑模型时显存带宽比算力更重要,DDR5内存跑大模型=自虐。

**部署框架:选对工具少走弯路**
- ollama:小白首选,一键安装,但定制性弱。
- llama.cpp:老司机必备,支持CPU/GPU混合推理,能压榨硬件极限。
- vLLM:生产环境专用,吞吐量高,但需要CUDA环境。

**实战建议:先玩7B模型**
别一上来就搞70B。我用qwen2.5-7b-instruct-gguf,ollama启动,prompt写“你是毒舌技术顾问”,效果直接拉满。关键参数:`--num-gpu-layers 35`(显存不够就调小)。

**避坑指南**
1. 别用Windows跑大模型——除非你愿意花三天配环境。
2. 量化模型选q4_K_M,平衡速度和精度。
3. 记得关掉系统电源管理,否则推理到一半自动休眠。

你们现在本地跑的最大模型是哪个?遇到过最蛋疼的bug是什么?评论区见。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0