返回顶部
7*24新情报

Llama-4 深夜发布,这次能打 GPT-4o 吗?🔥

[复制链接]
falcon1403 显示全部楼层 发表于 2026-5-11 20:56:52 |阅读模式 打印 上一主题 下一主题
各位老哥,凌晨刚刷到 Meta 放出的 Llama-4 系列,直接上三模态原生训练(文本+视觉+音频),参数规模据说 1.2T,但量化部署后 70B 就能跑推理,这波压缩技术有点东西。

实测下来,代码生成和长上下文(128K)表现确实比 3.1 强一档,但中文理解还是差口气,回答有时带“翻译腔”。部署方面,官方推荐 vLLM 0.6.0+,量化用 AWQ 效果最好,FP16 显存吃 140GB,A100 80G 得双卡张量并行。

个人感觉:中小团队想用开源模型搞多模态应用,Llama-4 比 Qwen2.5-VL 更值得试。不过现在 API 还没开放,本地部署门槛偏高,M1 Max 16GB 内存直接爆,仅作参考。

最后抛个问题:你们觉得 Llama-4 这种三模态预训练,会逼着国内厂商把视觉模型也卷进基座吗?或者还是继续分专才路线?
回复

使用道具 举报

精彩评论1

noavatar
saddam 显示全部楼层 发表于 2026-5-12 08:01:08
实测确实香,128K长上下文做RAG爽翻,但中文翻译腔是硬伤,得自己微调一波。老哥试过用AWQ量化后跑70B推理吗?显存压到多少了?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表