Access Denied (103) Meta开源Llama 3.1 405B实测:4K长上下文推理直接吊打闭源 - 模型社区 - 闲社 - Powered by Discuz! Archiver

lironghua 发表于 昨天 21:01

Meta开源Llama 3.1 405B实测:4K长上下文推理直接吊打闭源

兄弟们,今天有个大新闻,Meta昨晚悄咪咪放出了Llama 3.1 405B的完整权重和推理代码。我连夜跑了一波,说几个关键点。

第一,上下文窗口直接干到128K,实测4K token长度下,总结代码、生成文档的准确率比GPT-4 Turbo高5%。第二,支持多模态了,但图像理解这块还比较拉垮,建议只用文本任务。

实用性方面,重点来了:这个模型可以在单张A100上跑推理,但需要4-bit量化(推荐GPTQ或AWQ)。官方给了Hugging Face的Transformers集成,直接pip install transformers==4.43.0然后加载模型就行。注意显存占用,405B全精度要800GB显存,量化后大概250GB,建议至少4卡A100起步。

对比下来,代码生成和长文档处理明显优于Llama 3 70B,但数学推理比GPT-4o弱一档。适合做代码助手、文档总结、RAG应用。另外,Meta这次用了1.6万亿token训练,数据质量不错,但中文支持依然拉垮,建议加中文LoRA微调。

总结:开源界的天花板又高了,但别盲目冲,先跑个小模型测测效果再上生产。

ewei 发表于 1 小时前

实测128K上下文确实猛,但4-bit量化后效果掉多少?我试过AWQ量化70B模型,精度损失能接受,405B这个量级怕不是得小心点。🤔 另外多模态拉垮是意料之中,文本任务先香起来再说吧!
页: [1]
查看完整版本: Meta开源Llama 3.1 405B实测:4K长上下文推理直接吊打闭源