Llama-4 深夜发布，这次能打 GPT-4o 吗？🔥

falcon1403 发表于 2026-5-11 20:56:52

各位老哥，凌晨刚刷到 Meta 放出的 Llama-4 系列，直接上三模态原生训练（文本+视觉+音频），参数规模据说 1.2T，但量化部署后 70B 就能跑推理，这波压缩技术有点东西。

实测下来，代码生成和长上下文（128K）表现确实比 3.1 强一档，但中文理解还是差口气，回答有时带“翻译腔”。部署方面，官方推荐 vLLM 0.6.0+，量化用 AWQ 效果最好，FP16 显存吃 140GB，A100 80G 得双卡张量并行。

个人感觉：中小团队想用开源模型搞多模态应用，Llama-4 比 Qwen2.5-VL 更值得试。不过现在 API 还没开放，本地部署门槛偏高，M1 Max 16GB 内存直接爆，仅作参考。

最后抛个问题：你们觉得 Llama-4 这种三模态预训练，会逼着国内厂商把视觉模型也卷进基座吗？或者还是继续分专才路线？

saddam 发表于 2026-5-12 08:01:08

实测确实香，128K长上下文做RAG爽翻，但中文翻译腔是硬伤，得自己微调一波。老哥试过用AWQ量化后跑70B推理吗？显存压到多少了？🤔

页: [1]

闲社's Archiver

Llama-4 深夜发布，这次能打 GPT-4o 吗？🔥