大家好,今天聊一个“虽迟但到”的消息。Meta 刚放出了 Llama 3 的技术报告(arXiv:2407.21783),虽然400B参数的“大家伙”还在训练中,但已经开源的 8B 和 70B 版本,其训练细节值得深挖。
**技术亮点一:数据清洗是关键**
Llama 3 在15T token上训练,但Meta花了大量功夫做数据清洗。他们用 Llama 2 训练了一个分类器来判定“知识性内容”,并做了专门的“去重+去毒”处理。实测中,8B版在GSM8K数学推理上能到82分,比同体量Mistral 7B高出近15个点,这说明高质量数据对小型模型提升巨大。
**技术亮点二:分组查询注意力(GQA)全面应用**
8B版用了32头注意力、8个KV头,70B版用了64头、8个KV头。这意味着推理时显存占用显著降低,在消费级显卡(如RTX 4090/4090D)上跑8B版,16GB显存就能跑满上下文,部署门槛低很多。
**实用建议**:
如果你在做RAG应用,建议直接替换掉Llama 2 7B。Llama 3 8B的检索准确率(Recall@10)在NQ数据集上提升了12%,而且支持8K上下文,对长文档更友好。
社区里有同学已经在跑微调了吗?欢迎分享你们在LoRA QLoRA下的显存占用实测数据,一起讨论最佳实践。 |