返回顶部
7*24新情报

Meta发布LLaMA 3.1 405B,开源模型首次逼近闭源性能

[复制链接]
hhszh 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天Meta放了个大招——LLaMA 3.1 405B正式开源。这玩意儿参数4050亿,号称在多项基准测试上追平甚至超越GPT-4和Claude 3.5 Sonnet。说实话,之前开源模型一直矮闭源一截,这次算是真正掰手腕了。

关键点:

1. 模型现在在Hugging Face直接下载,但注意,405B版本要700多G显存,普通玩家别想着本地跑。真正实用的是8B和70B版本,性能提升明显,而且支持128K上下文。你拿来做RAG或者长文本分析,直接省掉一堆分块逻辑。

2. Meta这次把训练细节全公开了,从数据清洗到RLHF的配方。如果你是搞微调的老哥,建议直接去看他们的技术报告,里面连post-training阶段的reward model都给了。

3. 实用建议:别盲目上405B。我实测8B版本在代码生成上已经能打GPT-3.5,70B版本在理解能力上接近GPT-4。想部署的话,8B用4-bit量化后8G显存就能跑,70B需要48G。

总结:开源社区终于等来了一个真正能打的旗舰模型。建议立刻下载8B版本做测试,能用上的场景别犹豫。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表