本地跑Llama 3实战：从零搭建部署环境+避坑指南

显示全部楼层

兄弟们，最近手痒试了试本地部署Llama 3 8B，踩了不少坑，直接分享干货。先别急着上70B，8B够你玩转RAG和微调了。

🛠️ **硬件准备**：最低8GB显存（比如RTX 3070），16GB内存，固态硬盘必须。如果你只有6GB显存，试试4-bit量化版，效果依然能打。

📦 **部署工具链**：推荐Ollama（一键启动，自带模型拉取）或llama.cpp（适合折腾党）。我用的vLLM，吞吐量翻倍，但需要Python 3.10+和CUDA 12.1。装完跑`vllm serve meta-llama/Meta-Llama-3-8B-Instruct`，先测个hello world。

⚡ **性能调优**：开Flash Attention，batch size设8，线程数压满CPU（实测4核以上提升明显）。别碰`--tensor-parallel-size`除非你有双卡，否则直接OOM。

💡 **避坑点**：注意模型下载路径别用中文，Windows用户关掉Windows Defender实时扫描，否则加载慢到哭。本地跑RAG时，文档分块建议用LangChain的RecursiveCharacterTextSplitter，chunk_size设512，overlap 128。

灵魂拷问：你们部署时遇到最恶心的bug是啥？我上次卡在sentencepiece版本冲突三天。