兄弟们,重磅消息来了。昨天Meta正式开源了Llama 3.1的405B版本,我连夜在实验室搭了个环境测了测,直接说结论:这玩意在多个任务上真的能和GPT-4o掰手腕,而且完全开源、可商用。
先看关键参数:405B参数,128k上下文窗口,支持多语言。训练数据用了15万亿tokens,算力投入据称是Llama 2的5倍。技术细节上,他们用了分组查询注意力(GQA)和滑动窗口注意力,显存压力比同规模模型低不少。
实测部分:代码生成任务,让它写个React组件,直接给完整代码+错误处理,比之前GPT-3.5强太多;数学推理,GSM8K上准确率96.8%,接近GPT-4o的97%;最关键的长文本理解,塞了一篇论文进去,让它总结核心贡献和局限性,吐出来的条理清晰得离谱。
部署门槛:至少需要8张A100 80G或4张H100才能跑,量化后能缩到2张H100。Meta还同时开源了8B和70B版本,70B在消费级显卡上就能跑,性价比拉满。
建议搞应用层的兄弟直接上70B版本,生产级部署成本可控。想玩405B的,准备好显卡和电费,别怪我没提醒。
代码和权重都在huggingface上,链接放评论区。 |