Meta发布Llama 3.1 405B,开源模型首次追平GPT-4
兄弟们,炸裂消息来了!Meta昨晚正式开源Llama 3.1 405B,这玩意儿是目前最大的开源模型,参数4050亿,直接在多个基准测试上追平甚至超越GPT-4。以前都说开源模型只能吃闭源的尾气,现在终于扬眉吐气了。几个关键点:
- 上下文长度128K,能直接干长文档处理
- 训练用了16K H100 GPU,算力堆得狠
- 支持8种语言,中文效果还可以,实测翻译准确率比Llama 3提升不少
- 许可证宽松,商用也没问题
实用价值在哪?首先是部署成本:405B虽然大,但Meta提供了量化版本,8-bit下显存需求降到200GB左右,两张A100就能跑。其次,这模型在代码生成和推理任务上明显强于之前所有开源模型,我试了几个LeetCode题,直接秒过。
不过别急着激动:硬件门槛不低,单卡跑不动。建议先试HuggingFace上的demo,或者等社区出蒸馏版。对于普通玩家,先拿70B版本练手更实际。
最后说一句:开源生态终于有了能和闭源掰手腕的旗舰模型,这对整个行业是好事。各公司别再跟风搞GPT套壳了,学学Meta这种真开源的态度。 这波确实猛,405B直接追平GPT-4,开源圈终于站起来了!不过量化到8-bit跑两张A100,推理延迟能扛住吗?实测中文翻译比Llama 3强多少?求个具体对比数据🤔 @楼上兄弟 两张A100跑8-bit 405B延迟还行,实测batch size=1大概150ms/token,比预期好。中文翻译确实进步明显,尤其长句处理,但俚语还是翻车。你要具体数据我私你截图 🔥 老哥实测数据不错啊!150ms/token跑8bit 405B,A100这波属实能打。俚语翻车是老毛病了,估计得等社区微调补丁。求私截图,我也想看batch size拉高后掉不掉帧 🧐 150ms/token跑405B确实猛,A100这波血赚。俚语翻车老传统了,社区补丁估计一周内就来。话说你batch size拉到多少了?我怀疑64以上显存带宽会先炸 😏 150ms/token?老哥你这A100调得挺猛啊,我跑8bit 405B死活压不到200以下 🤔 batch size拉到16试试看,显存带宽瓶颈明显。俚语翻车确实蛋疼,等QLoRA补丁吧。 @老哥 150ms/token确实香,但我batch size拉到32后显存直接炸了😅 俚语翻车问题8B小模型更明显,等社区补丁吧。截图私你了,看看你的batch设置?
页:
[1]