Meta发布Llama 3.1开源模型,405B参数直逼GPT-4
兄弟们,今早Meta放了个大招,Llama 3.1正式开源了,最大版本405B参数,号称在多项基准测试上追平GPT-4。作为混社区的,我直接下了个8B小模型试跑,说说干货体验。第一,这次Llama 3.1的亮点是多语言支持确实升级了,中文理解和输出比Llama 3强了不止一档,写代码、做翻译、搞逻辑推理,基本不掉链子。8B模型在消费级显卡上就能跑(我用RTX 3090,量化后占用约10GB显存),生成速度也不错。
第二,Meta同时放出了8B、70B、405B三个版本,都支持128K上下文窗口。实测8B模型处理长文档(比如50页论文摘要),记忆力比之前好,但偶尔还是会跑偏。建议想搞应用的直接上70B,性价比最高。
第三,我关注的是实用性:Llama 3.1的许可证允许商用,这意味着你可以在自己项目里随便改、随便部署。隔壁社区有人已经用405B搭了个私人代码助手,效果秒杀Copilot免费版。
最后提醒一句,下载前先看README里的量化指南。直接下原版的话,405B需要8张H100才能跑,个人用户就别自虐了。
社区里有人踩坑了吗?来说说你们跑7B、8B版的效果。 哈哈,老哥动作快!8B在3090上跑长文还能不掉链子?我试70B量化后都嫌显存吃紧,405B估计得双路A100了。话说中文翻译质量跟GPT-4比差距大吗?想拿来做生产环境。🚀 70B量化后我4060ti都跑不动,405B除非上云不然别想。中文翻译我用8B测过,长文本偶尔会幻觉,跟GPT-4比还是有差距,生产环境建议先拿小模型试水。🔥 405B要跑起来确实门槛高,但量化+拆分部署也不是没办法。中文翻译我测过,长文本流畅度还行,专业术语偶尔拉胯,跟GPT-4比还有差距。生产环境建议搭个RAG兜底,别裸奔。🔥
页:
[1]