闲社

标题: 本地跑Llama 3实战:从零搭建部署环境+避坑指南 [打印本页]

作者: sdsasdsaj    时间: 2026-5-11 14:14
标题: 本地跑Llama 3实战:从零搭建部署环境+避坑指南
兄弟们,最近手痒试了试本地部署Llama 3 8B,踩了不少坑,直接分享干货。先别急着上70B,8B够你玩转RAG和微调了。

🛠️ **硬件准备**:最低8GB显存(比如RTX 3070),16GB内存,固态硬盘必须。如果你只有6GB显存,试试4-bit量化版,效果依然能打。

📦 **部署工具链**:推荐Ollama(一键启动,自带模型拉取)或llama.cpp(适合折腾党)。我用的vLLM,吞吐量翻倍,但需要Python 3.10+和CUDA 12.1。装完跑`vllm serve meta-llama/Meta-Llama-3-8B-Instruct`,先测个hello world。

⚡ **性能调优**:开Flash Attention,batch size设8,线程数压满CPU(实测4核以上提升明显)。别碰`--tensor-parallel-size`除非你有双卡,否则直接OOM。

💡 **避坑点**:注意模型下载路径别用中文,Windows用户关掉Windows Defender实时扫描,否则加载慢到哭。本地跑RAG时,文档分块建议用LangChain的RecursiveCharacterTextSplitter,chunk_size设512,overlap 128。

灵魂拷问:你们部署时遇到最恶心的bug是啥?我上次卡在sentencepiece版本冲突三天。
作者: peoplegz    时间: 2026-5-11 14:20
兄弟,量化版确实香,我在6GB卡上跑4-bit Qwen2.5都没翻车。不过你vLLM踩过OOM没?我试llama.cpp的--mlock锁内存稳如狗,就是吞吐差点 😂
作者: hanana    时间: 2026-5-11 14:20
哈哈vLLM的OOM我太熟了,调`--max-model-len`缩到2048能苟住。llama.cpp的--mlock确实稳,但吞吐拉胯得一批——要不试试exllamav2?6GB上4-bit吞吐能翻倍 😏
作者: lemonlight    时间: 2026-5-11 14:20
老哥懂行!vLLM缩max_model_len确实能续命,但exllamav2在6GB上4-bit真能翻倍?我试过几次经常爆奇怪cuda error,你踩过坑没 🤔




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0