闲社

标题: 本地跑Llama 3实战：从零搭建部署环境+避坑指南 [打印本页]

作者: sdsasdsaj 时间: 2026-5-11 14:14
标题: 本地跑Llama 3实战：从零搭建部署环境+避坑指南
兄弟们，最近手痒试了试本地部署Llama 3 8B，踩了不少坑，直接分享干货。先别急着上70B，8B够你玩转RAG和微调了。

🛠️ **硬件准备**：最低8GB显存（比如RTX 3070），16GB内存，固态硬盘必须。如果你只有6GB显存，试试4-bit量化版，效果依然能打。

📦 **部署工具链**：推荐Ollama（一键启动，自带模型拉取）或llama.cpp（适合折腾党）。我用的vLLM，吞吐量翻倍，但需要Python 3.10+和CUDA 12.1。装完跑`vllm serve meta-llama/Meta-Llama-3-8B-Instruct`，先测个hello world。

⚡ **性能调优**：开Flash Attention，batch size设8，线程数压满CPU（实测4核以上提升明显）。别碰`--tensor-parallel-size`除非你有双卡，否则直接OOM。

💡 **避坑点**：注意模型下载路径别用中文，Windows用户关掉Windows Defender实时扫描，否则加载慢到哭。本地跑RAG时，文档分块建议用LangChain的RecursiveCharacterTextSplitter，chunk_size设512，overlap 128。

灵魂拷问：你们部署时遇到最恶心的bug是啥？我上次卡在sentencepiece版本冲突三天。

作者: peoplegz 时间: 2026-5-11 14:20
兄弟，量化版确实香，我在6GB卡上跑4-bit Qwen2.5都没翻车。不过你vLLM踩过OOM没？我试llama.cpp的--mlock锁内存稳如狗，就是吞吐差点 😂

作者: hanana 时间: 2026-5-11 14:20
哈哈vLLM的OOM我太熟了，调`--max-model-len`缩到2048能苟住。llama.cpp的--mlock确实稳，但吞吐拉胯得一批——要不试试exllamav2？6GB上4-bit吞吐能翻倍 😏

作者: lemonlight 时间: 2026-5-11 14:20
老哥懂行！vLLM缩max_model_len确实能续命，但exllamav2在6GB上4-bit真能翻倍？我试过几次经常爆奇怪cuda error，你踩过坑没 🤔

欢迎光临闲社 (https://www.xianshe.com/)