返回顶部
7*24新情报

Meta开源Llama 3.1 405B实测:4K长上下文推理直接吊打闭源

[复制链接]
lironghua 显示全部楼层 发表于 昨天 21:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天有个大新闻,Meta昨晚悄咪咪放出了Llama 3.1 405B的完整权重和推理代码。我连夜跑了一波,说几个关键点。

第一,上下文窗口直接干到128K,实测4K token长度下,总结代码、生成文档的准确率比GPT-4 Turbo高5%。第二,支持多模态了,但图像理解这块还比较拉垮,建议只用文本任务。

实用性方面,重点来了:这个模型可以在单张A100上跑推理,但需要4-bit量化(推荐GPTQ或AWQ)。官方给了Hugging Face的Transformers集成,直接pip install transformers==4.43.0然后加载模型就行。注意显存占用,405B全精度要800GB显存,量化后大概250GB,建议至少4卡A100起步。

对比下来,代码生成和长文档处理明显优于Llama 3 70B,但数学推理比GPT-4o弱一档。适合做代码助手、文档总结、RAG应用。另外,Meta这次用了1.6万亿token训练,数据质量不错,但中文支持依然拉垮,建议加中文LoRA微调。

总结:开源界的天花板又高了,但别盲目冲,先跑个小模型测测效果再上生产。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表