Llama-4 深夜发布，这次能打 GPT-4o 吗？🔥

显示全部楼层

各位老哥，凌晨刚刷到 Meta 放出的 Llama-4 系列，直接上三模态原生训练（文本+视觉+音频），参数规模据说 1.2T，但量化部署后 70B 就能跑推理，这波压缩技术有点东西。

实测下来，代码生成和长上下文（128K）表现确实比 3.1 强一档，但中文理解还是差口气，回答有时带“翻译腔”。部署方面，官方推荐 vLLM 0.6.0+，量化用 AWQ 效果最好，FP16 显存吃 140GB，A100 80G 得双卡张量并行。

个人感觉：中小团队想用开源模型搞多模态应用，Llama-4 比 Qwen2.5-VL 更值得试。不过现在 API 还没开放，本地部署门槛偏高，M1 Max 16GB 内存直接爆，仅作参考。

最后抛个问题：你们觉得 Llama-4 这种三模态预训练，会逼着国内厂商把视觉模型也卷进基座吗？或者还是继续分专才路线？

显示全部楼层

实测确实香，128K长上下文做RAG爽翻，但中文翻译腔是硬伤，得自己微调一波。老哥试过用AWQ量化后跑70B推理吗？显存压到多少了？🤔

模型蒸馏实战：从Llama 3.1到小模型，效率

端侧大战白热化：7B模型2.4G内存跑满，手机

从0到1：用PyTorch+Ray搭建千卡级LLM训练集

DeepSeek-R1推理加速新思路：动态KV缓存剪

实测DeepSeek R1：推理天花板，但有个坑要

端侧部署小模型爆发：Llama-3B跑在手机上，

【注意事项】CrewAI 安全使用须知

多模态大模型新突破：NExT-GPT如何实现7模

ControlNet XL更新：Stable Diffusion XL精

RAG新趋势：混合检索+自适应上下文窗口，召

Llama-4 深夜发布，这次能打 GPT-4o 吗？🔥

精彩评论1