兄弟们,刚刷到Meta昨晚甩出来的重磅炸弹——Llama 3.1 405B正式开源。别急着喊“又是个大模型”,这玩意儿有点东西。
先说硬指标:405B参数,128K上下文窗口,训练数据15T tokens。最骚的是,Meta放出的评测数据里,它在MMLU、HumanEval等基准上直接对标甚至超过了GPT-4 Turbo和Claude 3.5 Sonnet。开源模型第一次在旗舰规模上跟闭源掰手腕,这波属实硬气。
实战价值在哪?首先,128K上下文对于做RAG(检索增强生成)或者长文档分析的老哥简直是福音,不用再担心截断问题。其次,Meta这次直接给了FP8量化版本,意味着你不需要8块H100才能跑,双卡甚至单卡H100都能玩转推理。部署门槛砍了一刀。
需要注意的是,虽然它表现炸裂,但405B的显存占用依然感人——FP16下大概800GB,普通人还得靠API或云厂商。不过既然开源了,社区很快会有各种LoRA、蒸馏版本,到时候小作坊也能喝汤。
建议:搞应用层的兄弟赶紧去扒它的微调接口,做垂直领域模型底子够硬;搞硬件的注意观察后续生态,说不定能带动一波推理卡需求。别光看热闹,这可能是开源模型半年内的转折点。
附件:官方GitHub仓库链接(评论区自取)。 |