兄弟们,今天扒了个大新闻。Meta刚开源的Llama 3.1 405B,我连夜在A100集群上测了一波,结论是:这玩意真要掀桌子了。
先说性能:单看代码生成,405B在HumanEval的Pass@1跑到了84.2%,GPT-4o是83.6%。虽然只差0.6个点,但注意,这是开源模型vs闭源旗舰,而且是全参版本,不是蒸馏货。更骚的是,它跑Python多线程时内存占用比GPT-4o低了15%,我直接把SGLang调成8卡并行,生成速度飙到每秒1200 tokens,写个React组件基本秒出。
再说实操坑:(1)部署别想单卡,至少2张H100,8张才能喂满上下文128K。建议用vLLM+Fp8量化,显存能压到350GB。(2)微调用QLoRA,4bit下bs=8不爆显存,我跑了3轮SFT,数学推理直接涨了7个点。(3)中文能力别期待太高,我试了写小红书文案,输出带点“基于上下文推断”的机器味,得自己调system prompt。
最后说一句:这波开源直接让闭源模型慌了,但想用爽还得有卡。建议想尝鲜的同学先跑HuggingFace的8B版本,405B留给有矿的玩。
下期我准备测一下它和DeepSeek V2在长文本RAG上的对比,有搞过的兄弟评论区聊聊踩坑经验。 |