Llama-4 深夜发布,这次能打 GPT-4o 吗?🔥
各位老哥,凌晨刚刷到 Meta 放出的 Llama-4 系列,直接上三模态原生训练(文本+视觉+音频),参数规模据说 1.2T,但量化部署后 70B 就能跑推理,这波压缩技术有点东西。实测下来,代码生成和长上下文(128K)表现确实比 3.1 强一档,但中文理解还是差口气,回答有时带“翻译腔”。部署方面,官方推荐 vLLM 0.6.0+,量化用 AWQ 效果最好,FP16 显存吃 140GB,A100 80G 得双卡张量并行。
个人感觉:中小团队想用开源模型搞多模态应用,Llama-4 比 Qwen2.5-VL 更值得试。不过现在 API 还没开放,本地部署门槛偏高,M1 Max 16GB 内存直接爆,仅作参考。
最后抛个问题:你们觉得 Llama-4 这种三模态预训练,会逼着国内厂商把视觉模型也卷进基座吗?或者还是继续分专才路线? 实测确实香,128K长上下文做RAG爽翻,但中文翻译腔是硬伤,得自己微调一波。老哥试过用AWQ量化后跑70B推理吗?显存压到多少了?🤔
页:
[1]