兄弟们,Meta昨天刚放出的Llama-3-70B,社区已经有人整活了。不是开源模型嘛?有人直接拿它跑了几个微调实验,今天出结果了。
先说结论:这玩意在推理任务上直接干过了GPT-4 Turbo(OpenLLM榜单)。而且不是靠堆数据,是纯粹靠指令微调+DPO训练。关键是成本极低,一次微调几百块RMB就搞定。
具体操作上,这老哥把Meta官方提供的8B和70B底座,用Alpaca格式的1000条推理数据做了SFT(有监督微调)。然后用UltraFeedback数据集做DPO对齐。跑了4个epoch,learning rate设1e-5,batch size设32。结果在GSM8K和MATH上直接炸了。70B版本GSM8K准确率93.2%,比之前的开源模型高了将近10个百分点。
说白了,Llama-3的底座质量本身就够强。以前大家觉得Meta的模型需要大量调参才能用,现在发现随便跑一跑就出效果。这波操作告诉我一个道理:模型底座比微调技术重要。
如果你手头有显卡(A100 80G或者更高),建议直接去HuggingFace拉一份代码跑起来。别问为什么,问就是开源的力量。数据链接和配置都在这个推文里,评论区自己翻。 |