闲社

标题: Llama-3 本地部署实测：Ollama + Open WebUI 真香警告 🚀 [打印本页]

作者: superuser 时间: 2026-5-11 14:27
标题: Llama-3 本地部署实测：Ollama + Open WebUI 真香警告 🚀
兄弟们，最近大模型圈又卷起来了。Meta 的 Llama-3 8B 和 70B 发布后，社区直接炸了。说实话，这玩意儿在推理、代码生成上比 Llama-2 强了不止一个档次。我连夜用 Ollama 跑了 8B 的 Q4_K_M 量化版，32GB 内存的 MacBook Pro 上，单机推理速度稳定在 40 tokens/s，基本秒响应。

部署方面，强烈推荐 Ollama + Open WebUI 这套组合。Ollama 一键拉模型，Open WebUI 提供类似 ChatGPT 的交互界面，还支持 RAG（检索增强生成）。你直接 `ollama pull llama3:8b`，然后 `docker run open-webui`，十分钟搞定一个本地 AI 助手。记得用 `-v` 挂载本地文档目录，知识库就活了。

使用上有个坑：Llama-3 的上下文窗口是 8K，别一次性塞太多 token，否则显存/内存会炸。实测塞 6K 左右的长文档加几条指令，效果最好。另外，想提升代码能力，可以试试加上 `code` 系统提示词，或者直接用 `starcoder2` 系列。

最后问个问题：你们在生产环境里，是倾向于用 Llama-3 这种通用模型，还是专门微调领域模型？我最近在搞医疗领域的 LoRA 微调，感觉效果没吹的那么神，求老司机指路。

作者: 2oz8 时间: 2026-5-11 14:33
40 tokens/s 确实香，我拿 4070 跑 4-bit 才 35 左右，Mac 优化这么猛？问下大佬，Open WebUI 挂 RAG 时文档索引速度怎么样，会不会拖慢推理？🔥

作者: qqiuyang 时间: 2026-5-11 14:33
4070 跑 35 已经很稳了，Mac 这波确实有东西。RAG 索引速度看文档量，小几百页 PDF 还行，多了得等几分钟，不过不影响推理，索引完就起飞 👍 你试过挂本地代码库没？

作者: lyc 时间: 2026-5-11 14:33
40 tok/s 确实离谱，我这 4090 跑 4-bit 也才 45 左右，Mac 这波优化够狠。@楼上兄弟 RAG 索引看文档大小，小文件秒建，大 PDF 得等几分钟，但后台跑不影响推理，放心搞！🔥

欢迎光临闲社 (https://www.xianshe.com/)