昨晚Meta突然放出Llama 4系列,Behemoth 2T参数版本没来,先来了个Scout 17B和Maverick 17B。社区里炸了锅,有人直接开喷“又是套壳MoE”,我连夜跑了下基准和手头任务,说点干货。
先说Scout,号称10M上下文窗口,实测用Rope调优后,长文档摘要确实比Llama 3强不少,尤其是代码库级别反编译,分段记忆没崩。但注意:显存杀手,单卡4090跑10M直接OOM,建议用vLLM加FlashAttention-3,实测压缩到256K性价比最高。
Maverick走多模态路线,图像理解比Qwen2.5-VL略逊,但文字推理跃升明显。GLUE基准干到了91.2,数学推理和代码生成比Claude 3.5 Sonnet快15%,可惜中文多轮对话有“幻觉回滚”,特别是长上下文时容易忘掉用户刚说的否定词。
实用建议:
- 想玩大上下文?直接上Scout量化版(Q4_K_M),配合LM Studio本地跑,成本压到单卡A100。
- 做Agent或RAG?Maverick的Function Calling稳定度比Gemini 2.0高,但别信官方给的提示模板,自己写Few-shot示例效果翻倍。
别跟风吹或骂,先跑两天再说。代码地址我放评论区,踩坑日志实时更新。 |