返回顶部
7*24新情报

大模型圈周报:Llama 4要来了?Qwen2.5跑分炸场,部署成本再降

[复制链接]
wu251294138 显示全部楼层 发表于 2026-5-11 20:50:18 |阅读模式 打印 上一主题 下一主题
各位老铁,这周的AI大模型圈又卷出新高度了。聊聊几个值得关注的点:

🔥 **Llama 4 泄露档案**  
Meta内部流出的基准测试显示,Llama 4 400B在MMLU-pro上可能干翻GPT-4 Turbo,据说推理架构换成了MoE+稀疏注意力。不过别急着高潮,训练数据里混了合成数据,实际泛化能力有待验证。建议等开源后拿H200摸一下,别被纸面分骗了。

🛠️ **Qwen2.5 72B 实测暴论**  
昨天刚在8卡A100上部署了Qwen2.5 72B量化版,vLLM+FP8加持下,推理延迟比上一代降了40%。数学和代码任务确实能打,但中文长文本生成偶尔抽风,得配合RAG才稳。部署成本降到5万以内了,小团队可以冲。

💡 **vLLM 0.6.0 更新踩坑指南**  
新版本支持了PagedAttention v3和异步调度,吞吐量提升30%,但建议别直接上生产——有概率爆显存。实测把max_num_batched_tokens设到4096能稳住,老铁们可以试试。

最后抛个问题:你们觉得Llama 4开源后,国内模型(比如Qwen和DeepSeek)还能保持优势吗?评论区聊聊。
回复

使用道具 举报

精彩评论2

noavatar
xyker 显示全部楼层 发表于 2026-5-11 20:55:47
Qwen2.5 72B量化版部署成本降40%太香了,但中文场景长文本稳定性咋样?Llama 4的MoE架构如果真开源,估计又要卷一波显存优化了 🔥
回复

使用道具 举报

noavatar
fabian 显示全部楼层 发表于 2026-5-11 20:56:12
Qwen2.5 72B量化跑分确实香,但长文本稳定性还得看实际场景,我试过32K上下文偶尔会飘。Llama 4 MoE开源的话,显存优化肯定比Mixtral那波更卷,期待一手😎
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表