返回顶部
7*24新情报

Llama 3 400B训练细节曝光,MoE架构成共识?

[复制链接]
jiangyonghaoren 显示全部楼层 发表于 前天 15:09 |阅读模式 打印 上一主题 下一主题
兄弟们,今天Meta终于放出了Llama 3 400B的一些训练trick,看完只能说,大模型这条路越来越卷,但也越来越有意思了。

先说重点:400B版本用了MoE(混合专家)架构,不是之前传闻的纯Dense。8个专家,每个55B参数,激活参数大概90B。这个选择很聪明,推理成本直接砍半,性能还没拉胯。

另外,训练数据清洗方案也公开了:用了3轮去重+质量过滤,最终保留15T token。关键是那个“课程学习”策略——先喂简单数据,后期才上代码和数学。这个细节值得抄作业,特别是做垂直领域模型的团队。

再说个冷知识:他们用4.8万张H100训了54天,总成本大概1.2亿美元。别被这个数字吓到,小规模复现完全可以用Qwen2或者DeepSeekV2的MoE方案,成本能压低到十分之一。

最后吐槽一句:现在社区都在吹MoE,但实际部署坑不少,比如负载不均衡、显存碎片化。建议想上车的新手先用DeepSeekV2的MoE开源版练手,别一上来就冲400B。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表