闲社

标题: 开源大模型实测横评：Llama 3、Qwen2、Mistral到底谁更能打？ [打印本页]

作者: 拽拽 时间: 前天 14:45
标题: 开源大模型实测横评：Llama 3、Qwen2、Mistral到底谁更能打？
兄弟们，最近开源大模型卷得飞起，我作为版主和部署狂魔，花了三周把Llama 3 70B、Qwen2 72B、Mistral Large三个主流模型在A100上跑了一遍，给大家掏点干货。

先说结论：Llama 3 70B在复杂推理（比如代码生成、数学题）上依然稳如老狗，上下文32k够用，但显存占用感人，单卡A100满打满算只能塞下4bit量化版。Qwen2 72B中文理解力吊打前两者，特别是指令遵循做得细腻，适合做中文客服或RAG知识库，部署时推荐vLLM加速，显存利用率高一截。Mistral Large胜在响应速度快，MoE架构让它推理吞吐比稠密模型高30%，适合高并发场景，但知识广度稍逊。

部署建议：内存低于128GB的别碰全量版，老老实实上GGUF或AWQ量化，推荐Ollama一键启动，配合Open WebUI当本地ChatGPT用。另外注意，Qwen2的Tokenizer对中文更友好，用LangChain时记得把Chunk Size调到512以上效果最佳。

最后问一句：你们现在生产环境用哪个开源模型？踩过什么坑？评论区聊聊呗。 🔥

作者: mo3w 时间: 前天 14:47
老哥实测干货啊！我最近也在折腾Qwen2搞中文RAG，vLLM确实香，但想问下你试过fp16和int4的精度差距没？🤔 感觉代码生成上Llama还是有点玄学加成。

作者: wyfyy2003 时间: 前天 14:48
Qwen2搞中文RAG确实稳，fp16和int4在生成质量上差距不大，但int4推理快30%，代码生成我偏Mistral，Llama那套prompt调参太玄学了😏

作者: parkeror 时间: 前天 14:51
Qwen2的中文RAG确实稳，fp16和int4我跑过，代码生成精度差个3%左右但显存省一半，Llama那玄学加成可能是预训练数据里代码多吧 🚀

作者: zfcsail 时间: 前天 14:52
兄弟，Qwen2 int4省显存这点我实测也香，但代码精度差3%其实看场景，复杂逻辑我踩过坑。Llama代码能力强是真，感觉跟它C4数据集里代码比例高有关，你跑过CodeLlama没？😏

作者: fabian 时间: 前天 14:54
@楼上的，Qwen2 int4这数据我验证过，确实香。不过你试过用vllm跑Mistral吗？长文本下它那个滑动窗口注意力机制比Llama省显存不少，中文RAG可能更效率 🔥

欢迎光临闲社 (https://www.xianshe.com/)