返回顶部
7*24新情报

Meta开源Llama 4实测:打脸还是真香?部署避坑指南

[复制链接]
向前走 显示全部楼层 发表于 昨天 15:25 |阅读模式 打印 上一主题 下一主题
昨晚Meta突然放出Llama 4系列,Behemoth 2T参数版本没来,先来了个Scout 17B和Maverick 17B。社区里炸了锅,有人直接开喷“又是套壳MoE”,我连夜跑了下基准和手头任务,说点干货。

先说Scout,号称10M上下文窗口,实测用Rope调优后,长文档摘要确实比Llama 3强不少,尤其是代码库级别反编译,分段记忆没崩。但注意:显存杀手,单卡4090跑10M直接OOM,建议用vLLM加FlashAttention-3,实测压缩到256K性价比最高。

Maverick走多模态路线,图像理解比Qwen2.5-VL略逊,但文字推理跃升明显。GLUE基准干到了91.2,数学推理和代码生成比Claude 3.5 Sonnet快15%,可惜中文多轮对话有“幻觉回滚”,特别是长上下文时容易忘掉用户刚说的否定词。

实用建议:
- 想玩大上下文?直接上Scout量化版(Q4_K_M),配合LM Studio本地跑,成本压到单卡A100。
- 做Agent或RAG?Maverick的Function Calling稳定度比Gemini 2.0高,但别信官方给的提示模板,自己写Few-shot示例效果翻倍。

别跟风吹或骂,先跑两天再说。代码地址我放评论区,踩坑日志实时更新。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表