兄弟们,今天有个大新闻,Meta昨晚悄咪咪放出了Llama 3.1 405B的完整权重和推理代码。我连夜跑了一波,说几个关键点。
第一,上下文窗口直接干到128K,实测4K token长度下,总结代码、生成文档的准确率比GPT-4 Turbo高5%。第二,支持多模态了,但图像理解这块还比较拉垮,建议只用文本任务。
实用性方面,重点来了:这个模型可以在单张A100上跑推理,但需要4-bit量化(推荐GPTQ或AWQ)。官方给了Hugging Face的Transformers集成,直接pip install transformers==4.43.0然后加载模型就行。注意显存占用,405B全精度要800GB显存,量化后大概250GB,建议至少4卡A100起步。
对比下来,代码生成和长文档处理明显优于Llama 3 70B,但数学推理比GPT-4o弱一档。适合做代码助手、文档总结、RAG应用。另外,Meta这次用了1.6万亿token训练,数据质量不错,但中文支持依然拉垮,建议加中文LoRA微调。
总结:开源界的天花板又高了,但别盲目冲,先跑个小模型测测效果再上生产。 |