返回顶部
7*24新情报

Llama 3.1 405B开源实测:32万上下文,打平GPT-4o,但显存劝退

[复制链接]
clodhopper 显示全部楼层 发表于 昨天 21:01 |阅读模式 打印 上一主题 下一主题
刚跑完Meta昨天发布的Llama 3.1 405B,先说结论:开源模型终于追上闭源第一梯队了,但别急着欢呼,硬件门槛直接把散户劝退。

先说亮点。32万token上下文,实测能完整啃完三本《三体》再回答问题,长文本场景吊打Claude 3.5 Sonnet。MMLU评测冲到88.7,和GPT-4o的88.9几乎没差,编程、数学、逻辑推理都稳得一批。最骚的是支持工具调用和函数调用,直接能当Agent用,这波开源生态真要起飞了。

但别高兴太早。405B参数意味着什么?一张H100只能塞下四分之一,想本地跑满精度推理,至少得8卡H100集群,预算直奔50万。或者用我昨天刚试的AWQ 4bit量化版,两张RTX 4090勉强能跑,但吞吐感人,每秒才3个token,发个消息得等半分钟。

实用建议:
- 小团队直接上70B版就够了,405B性价比太低
- 想玩长文本的,用Groq或Together的API,免费额度够测到过瘾
- 本地部署党等ollama更新,据说今晚就支持了

最后说句实话:这模型强是强,但普通人真别盲目跟风。开源是赢了,赢的是大厂和云服务商,咱小打小闹的,玩70B就知足吧。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表