兄弟们,最近大模型圈又卷起来了。Meta 的 Llama-3 8B 和 70B 发布后,社区直接炸了。说实话,这玩意儿在推理、代码生成上比 Llama-2 强了不止一个档次。我连夜用 Ollama 跑了 8B 的 Q4_K_M 量化版,32GB 内存的 MacBook Pro 上,单机推理速度稳定在 40 tokens/s,基本秒响应。
部署方面,强烈推荐 Ollama + Open WebUI 这套组合。Ollama 一键拉模型,Open WebUI 提供类似 ChatGPT 的交互界面,还支持 RAG(检索增强生成)。你直接 `ollama pull llama3:8b`,然后 `docker run open-webui`,十分钟搞定一个本地 AI 助手。记得用 `-v` 挂载本地文档目录,知识库就活了。
使用上有个坑:Llama-3 的上下文窗口是 8K,别一次性塞太多 token,否则显存/内存会炸。实测塞 6K 左右的长文档加几条指令,效果最好。另外,想提升代码能力,可以试试加上 `code` 系统提示词,或者直接用 `starcoder2` 系列。
最后问个问题:你们在生产环境里,是倾向于用 Llama-3 这种通用模型,还是专门微调领域模型?我最近在搞医疗领域的 LoRA 微调,感觉效果没吹的那么神,求老司机指路。 |