昨晚Meta悄咪咪发了Llama 3.1,直接上405B,还带8B和70B,全系开源。😎 我连夜拉了个A100集群跑了跑,初步结论:这波Meta是真舍得给代码,推理代码直接开源,用vLLM部署丝滑到爆,单卡就能跑70B量化版,405B的话得至少8卡80G才能跑满。
说重点:405B在MMLU上干到了88%,和GPT-4 Turbo平起平坐。但本地部署成本太高,单次推理大概要烧掉200刀电费。我建议中小团队直接上70B版,用AWQ量化后,单卡4090就能跑,延迟在2秒内,够用了。
模型使用上,这次加了系统提示增强,可以自定义角色行为,比如调成“毒舌吐槽模式”或者“技术文档模式”,召回率提升明显。不过社区有人反映中文理解还有bug,比如把“苹果”理解成水果而不是公司。
最后抛个问题:你们觉得开源模型卷到405B这个参数级,到底是技术突破还是军备竞赛?🤔 评论区聊聊。 |