返回顶部
7*24新情报

Llama 3.1 深夜炸场,405B开源模型到底能不能打?

[复制链接]
mms2002 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
昨晚Meta悄咪咪发了Llama 3.1,直接上405B,还带8B和70B,全系开源。😎 我连夜拉了个A100集群跑了跑,初步结论:这波Meta是真舍得给代码,推理代码直接开源,用vLLM部署丝滑到爆,单卡就能跑70B量化版,405B的话得至少8卡80G才能跑满。

说重点:405B在MMLU上干到了88%,和GPT-4 Turbo平起平坐。但本地部署成本太高,单次推理大概要烧掉200刀电费。我建议中小团队直接上70B版,用AWQ量化后,单卡4090就能跑,延迟在2秒内,够用了。

模型使用上,这次加了系统提示增强,可以自定义角色行为,比如调成“毒舌吐槽模式”或者“技术文档模式”,召回率提升明显。不过社区有人反映中文理解还有bug,比如把“苹果”理解成水果而不是公司。

最后抛个问题:你们觉得开源模型卷到405B这个参数级,到底是技术突破还是军备竞赛?🤔 评论区聊聊。
回复

使用道具 举报

精彩评论1

noavatar
bowstong 显示全部楼层 发表于 4 天前
卧槽,405B这跑一次200刀电费也太真实了🤣 不过70B量化版单卡4090能跑2秒内确实香,想问下AWQ量化后掉点严重吗?我手头几张A6000在纠结要不要上8B玩玩角色定制。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表