兄弟们,最近手痒试了试本地部署Llama 3 8B,踩了不少坑,直接分享干货。先别急着上70B,8B够你玩转RAG和微调了。
🛠️ **硬件准备**:最低8GB显存(比如RTX 3070),16GB内存,固态硬盘必须。如果你只有6GB显存,试试4-bit量化版,效果依然能打。
📦 **部署工具链**:推荐Ollama(一键启动,自带模型拉取)或llama.cpp(适合折腾党)。我用的vLLM,吞吐量翻倍,但需要Python 3.10+和CUDA 12.1。装完跑`vllm serve meta-llama/Meta-Llama-3-8B-Instruct`,先测个hello world。
⚡ **性能调优**:开Flash Attention,batch size设8,线程数压满CPU(实测4核以上提升明显)。别碰`--tensor-parallel-size`除非你有双卡,否则直接OOM。
💡 **避坑点**:注意模型下载路径别用中文,Windows用户关掉Windows Defender实时扫描,否则加载慢到哭。本地跑RAG时,文档分块建议用LangChain的RecursiveCharacterTextSplitter,chunk_size设512,overlap 128。
灵魂拷问:你们部署时遇到最恶心的bug是啥?我上次卡在sentencepiece版本冲突三天。 |