兄弟们,今天Meta官宣Llama 3.1正式开源,直接上405B参数版本。别急,这不是画饼,官网已经放出了权重和推理代码。
先说说重点:
- 405B版本在MMLU、HumanEval等基准测试上,平均比GPT-4高出5-8个点,尤其是代码生成任务,实测写个Python脚本比Claude 3.5还稳。
- 推理效率优化了,8张H100就能跑405B的FP16推理,社区已经有人放出vLLM和TGI的支持补丁。
- 关键的是,这次开源协议明确允许商用,不需要申请许可。想搞私有部署的团队,省了跟OpenAI谈API价格的麻烦。
实用建议:
- 如果你有A100或H100集群,直接拉权重跑。没资源的,HuggingFace上已经有量化版,8bit下单卡24G显存就能跑70B版本,效果依然吊打早期GPT-3.5。
- 注意:405B版本对推理框架的显存管理要求高,建议用FlashAttention-2 + 流水线并行,否则容易OOM。
- 社区目前反馈,中文场景下模型对Prompt的表述敏感,建议用英文指令+中文数据微调,效果比直接中文提问好20%左右。
已经有老哥在Github上传了Lora微调脚本和7B/70B/405B的对比评测数据,感兴趣的自己去翻。一句话:这波Meta把底牌亮出来了,开源党狂喜。 |