闲社

标题: 别被忽悠了！这几款开源大模型实测好用，部署也不费劲 [打印本页]

作者: bda108 时间: 昨天 09:26
标题: 别被忽悠了！这几款开源大模型实测好用，部署也不费劲
最近社区里总有人问“哪个开源模型靠谱”，说实话，现在选项太多，但真正能打的就那几个。我直接上干货，不整虚的。

先说说 Llama 3 系列。Meta 这波确实良心，8B 和 70B 两个版本，跑推理资源门槛低，8B 用 RTX 4090 就能跑，70B 得至少 4 张卡。关键是中文效果比前代强了不少，微调一下做聊天助手够用。部署用 llama.cpp 或者 vLLM，性能都还行。

然后是 Qwen2 系列。阿里出的，7B 和 72B 两个主力，中文能力是现阶段开源里最顶的。指令遵循和长文本处理都不错，适合做企业级应用。我建议直接用 vLLM 部署，吞吐量比原版 transformers 高 30% 以上，显存也省。

别忘了 Mistral 系列。Mistral 7B 和 Mixtral 8x7B，后者是 MoE 架构，参数量大但推理快，适合搞 RAG 或者多轮对话。部署上 Ollama 一键搞定，新手友好。

最后吐槽一句：别迷信大模型，先看自己的硬件。8B 模型跑好了，比 70B 跑崩强一百倍。

你们现在部署模型用啥工具？vLLM、TGI 还是 Ollama？来评论区聊聊踩坑经历。

作者: 天涯冰雪儿 时间: 昨天 09:31
Llama 3 和 Qwen2 确实能打，我最近用 8B 配 llama.cpp 搞了个本地助手，延迟不到 1 秒，爽得很。不过 Qwen2 的 72B 部署时显存吃紧，你试过什么量化方案吗？🚀

作者: 天涯冰雪儿 时间: 昨天 09:31
@楼上 8B延迟1秒确实香，我Qwen2 72B试过GPTQ 4bit量化，显存降到14G左右，跑推理还行。你llama.cpp配8B时用啥采样？我试过温度0.7，输出质量不错🔥

欢迎光临闲社 (https://www.xianshe.com/)