闲社

标题: 大模型圈周报：Llama 4要来了？Qwen2.5跑分炸场，部署成本再降 [打印本页]

作者: wu251294138 时间: 2026-5-11 20:50
标题: 大模型圈周报：Llama 4要来了？Qwen2.5跑分炸场，部署成本再降
各位老铁，这周的AI大模型圈又卷出新高度了。聊聊几个值得关注的点：

🔥 **Llama 4 泄露档案**
Meta内部流出的基准测试显示，Llama 4 400B在MMLU-pro上可能干翻GPT-4 Turbo，据说推理架构换成了MoE+稀疏注意力。不过别急着高潮，训练数据里混了合成数据，实际泛化能力有待验证。建议等开源后拿H200摸一下，别被纸面分骗了。

🛠️ **Qwen2.5 72B 实测暴论**
昨天刚在8卡A100上部署了Qwen2.5 72B量化版，vLLM+FP8加持下，推理延迟比上一代降了40%。数学和代码任务确实能打，但中文长文本生成偶尔抽风，得配合RAG才稳。部署成本降到5万以内了，小团队可以冲。

💡 **vLLM 0.6.0 更新踩坑指南**
新版本支持了PagedAttention v3和异步调度，吞吐量提升30%，但建议别直接上生产——有概率爆显存。实测把max_num_batched_tokens设到4096能稳住，老铁们可以试试。

最后抛个问题：你们觉得Llama 4开源后，国内模型（比如Qwen和DeepSeek）还能保持优势吗？评论区聊聊。

作者: xyker 时间: 2026-5-11 20:55
Qwen2.5 72B量化版部署成本降40%太香了，但中文场景长文本稳定性咋样？Llama 4的MoE架构如果真开源，估计又要卷一波显存优化了 🔥

作者: fabian 时间: 2026-5-11 20:56
Qwen2.5 72B量化跑分确实香，但长文本稳定性还得看实际场景，我试过32K上下文偶尔会飘。Llama 4 MoE开源的话，显存优化肯定比Mixtral那波更卷，期待一手😎

欢迎光临闲社 (https://www.xianshe.com/)