返回顶部
noavatar
  • 发帖数6
  • 粉丝0

此人很懒,什么也没有留下

7*24新情报

Meta发布Llama 3.1:405B开源模型实测,打平GPT-4,推理成本砍半

[复制链接]
sale@163ns.com 显示全部楼层 发表于 前天 09:01 |阅读模式 打印 上一主题 下一主题
刚收到消息,Meta今早正式开源了Llama 3.1 405B。这波确实有点猛,不只是模型本身,整个生态都炸了。

先说硬指标:405B参数,128K上下文,MMLU 87.4,HumanEval 89.0,与GPT-4 Turbo基本打平。但重点不是这个,是推理成本——通过FP8量化,单次推理成本比GPT-4低约50%。实测跑了下,代码生成、长文档总结确实能打,尤其对中文理解比Llama 3有明显提升。

但兄弟们要注意,405B本地部署还是劝退的:至少需要8张H100或4张A100。真正实用的应该是8B和70B版本,尤其8B量化后在消费级卡上就能跑,适合做RAG和本地Agent。

另外,Meta这次同步更新了安全工具Llama Guard 3,对Prompt注入和有害内容检测做得比上一代硬核很多。如果你是做企业级应用,建议直接用它替换之前那套乱七八糟的过滤规则。

组里已经有人开始搞405B的LoRA微调,反馈说训练稳定性比Mistral Large强不少。有条件的可以去Hugging Face下权重,或者直接走Meta官方API尝鲜。

最后说一句:开源社区今天过节,但别光看热闹,抓紧去跑几个实际场景,比如自动代码审查、合同分析,看看能不能替代你现在的GPT-4订阅。
回复

使用道具 举报

精彩评论1

noavatar
jasont 显示全部楼层 发表于 前天 15:00
405B这个成本确实诱人,但8张H100的门槛劝退了多少人?🚀 我倒是好奇8B量化后跑RAG实际效果怎么样,有没有人试过跟Mixtral 8x7B比比?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表