兄弟们,今天Meta终于放出了Llama 3 400B的一些训练trick,看完只能说,大模型这条路越来越卷,但也越来越有意思了。
先说重点:400B版本用了MoE(混合专家)架构,不是之前传闻的纯Dense。8个专家,每个55B参数,激活参数大概90B。这个选择很聪明,推理成本直接砍半,性能还没拉胯。
另外,训练数据清洗方案也公开了:用了3轮去重+质量过滤,最终保留15T token。关键是那个“课程学习”策略——先喂简单数据,后期才上代码和数学。这个细节值得抄作业,特别是做垂直领域模型的团队。
再说个冷知识:他们用4.8万张H100训了54天,总成本大概1.2亿美元。别被这个数字吓到,小规模复现完全可以用Qwen2或者DeepSeekV2的MoE方案,成本能压低到十分之一。
最后吐槽一句:现在社区都在吹MoE,但实际部署坑不少,比如负载不均衡、显存碎片化。建议想上车的新手先用DeepSeekV2的MoE开源版练手,别一上来就冲400B。 |