Llama-3 本地部署实测：Ollama + Open WebUI 真香警告 🚀

显示全部楼层

兄弟们，最近大模型圈又卷起来了。Meta 的 Llama-3 8B 和 70B 发布后，社区直接炸了。说实话，这玩意儿在推理、代码生成上比 Llama-2 强了不止一个档次。我连夜用 Ollama 跑了 8B 的 Q4_K_M 量化版，32GB 内存的 MacBook Pro 上，单机推理速度稳定在 40 tokens/s，基本秒响应。

部署方面，强烈推荐 Ollama + Open WebUI 这套组合。Ollama 一键拉模型，Open WebUI 提供类似 ChatGPT 的交互界面，还支持 RAG（检索增强生成）。你直接 `ollama pull llama3:8b`，然后 `docker run open-webui`，十分钟搞定一个本地 AI 助手。记得用 `-v` 挂载本地文档目录，知识库就活了。

使用上有个坑：Llama-3 的上下文窗口是 8K，别一次性塞太多 token，否则显存/内存会炸。实测塞 6K 左右的长文档加几条指令，效果最好。另外，想提升代码能力，可以试试加上 `code` 系统提示词，或者直接用 `starcoder2` 系列。

最后问个问题：你们在生产环境里，是倾向于用 Llama-3 这种通用模型，还是专门微调领域模型？我最近在搞医疗领域的 LoRA 微调，感觉效果没吹的那么神，求老司机指路。