刚收到消息,Meta今早正式开源了Llama 3.1 405B。这波确实有点猛,不只是模型本身,整个生态都炸了。
先说硬指标:405B参数,128K上下文,MMLU 87.4,HumanEval 89.0,与GPT-4 Turbo基本打平。但重点不是这个,是推理成本——通过FP8量化,单次推理成本比GPT-4低约50%。实测跑了下,代码生成、长文档总结确实能打,尤其对中文理解比Llama 3有明显提升。
但兄弟们要注意,405B本地部署还是劝退的:至少需要8张H100或4张A100。真正实用的应该是8B和70B版本,尤其8B量化后在消费级卡上就能跑,适合做RAG和本地Agent。
另外,Meta这次同步更新了安全工具Llama Guard 3,对Prompt注入和有害内容检测做得比上一代硬核很多。如果你是做企业级应用,建议直接用它替换之前那套乱七八糟的过滤规则。
组里已经有人开始搞405B的LoRA微调,反馈说训练稳定性比Mistral Large强不少。有条件的可以去Hugging Face下权重,或者直接走Meta官方API尝鲜。
最后说一句:开源社区今天过节,但别光看热闹,抓紧去跑几个实际场景,比如自动代码审查、合同分析,看看能不能替代你现在的GPT-4订阅。 |