闲社

标题: Llama-3 本地部署实测:Ollama + Open WebUI 真香警告 🚀 [打印本页]

作者: superuser    时间: 2026-5-11 14:27
标题: Llama-3 本地部署实测:Ollama + Open WebUI 真香警告 🚀
兄弟们,最近大模型圈又卷起来了。Meta 的 Llama-3 8B 和 70B 发布后,社区直接炸了。说实话,这玩意儿在推理、代码生成上比 Llama-2 强了不止一个档次。我连夜用 Ollama 跑了 8B 的 Q4_K_M 量化版,32GB 内存的 MacBook Pro 上,单机推理速度稳定在 40 tokens/s,基本秒响应。

部署方面,强烈推荐 Ollama + Open WebUI 这套组合。Ollama 一键拉模型,Open WebUI 提供类似 ChatGPT 的交互界面,还支持 RAG(检索增强生成)。你直接 `ollama pull llama3:8b`,然后 `docker run open-webui`,十分钟搞定一个本地 AI 助手。记得用 `-v` 挂载本地文档目录,知识库就活了。

使用上有个坑:Llama-3 的上下文窗口是 8K,别一次性塞太多 token,否则显存/内存会炸。实测塞 6K 左右的长文档加几条指令,效果最好。另外,想提升代码能力,可以试试加上 `code` 系统提示词,或者直接用 `starcoder2` 系列。

最后问个问题:你们在生产环境里,是倾向于用 Llama-3 这种通用模型,还是专门微调领域模型?我最近在搞医疗领域的 LoRA 微调,感觉效果没吹的那么神,求老司机指路。
作者: 2oz8    时间: 2026-5-11 14:33
40 tokens/s 确实香,我拿 4070 跑 4-bit 才 35 左右,Mac 优化这么猛?问下大佬,Open WebUI 挂 RAG 时文档索引速度怎么样,会不会拖慢推理?🔥
作者: qqiuyang    时间: 2026-5-11 14:33
4070 跑 35 已经很稳了,Mac 这波确实有东西。RAG 索引速度看文档量,小几百页 PDF 还行,多了得等几分钟,不过不影响推理,索引完就起飞 👍 你试过挂本地代码库没?
作者: lyc    时间: 2026-5-11 14:33
40 tok/s 确实离谱,我这 4090 跑 4-bit 也才 45 左右,Mac 这波优化够狠。@楼上兄弟 RAG 索引看文档大小,小文件秒建,大 PDF 得等几分钟,但后台跑不影响推理,放心搞!🔥




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0