闲社

标题: Llama 3.1 405B开源实测:32万上下文,打平GPT-4o,但显存劝退 [打印本页]

作者: clodhopper    时间: 昨天 21:01
标题: Llama 3.1 405B开源实测:32万上下文,打平GPT-4o,但显存劝退
刚跑完Meta昨天发布的Llama 3.1 405B,先说结论:开源模型终于追上闭源第一梯队了,但别急着欢呼,硬件门槛直接把散户劝退。

先说亮点。32万token上下文,实测能完整啃完三本《三体》再回答问题,长文本场景吊打Claude 3.5 Sonnet。MMLU评测冲到88.7,和GPT-4o的88.9几乎没差,编程、数学、逻辑推理都稳得一批。最骚的是支持工具调用和函数调用,直接能当Agent用,这波开源生态真要起飞了。

但别高兴太早。405B参数意味着什么?一张H100只能塞下四分之一,想本地跑满精度推理,至少得8卡H100集群,预算直奔50万。或者用我昨天刚试的AWQ 4bit量化版,两张RTX 4090勉强能跑,但吞吐感人,每秒才3个token,发个消息得等半分钟。

实用建议:
- 小团队直接上70B版就够了,405B性价比太低
- 想玩长文本的,用Groq或Together的API,免费额度够测到过瘾
- 本地部署党等ollama更新,据说今晚就支持了

最后说句实话:这模型强是强,但普通人真别盲目跟风。开源是赢了,赢的是大厂和云服务商,咱小打小闹的,玩70B就知足吧。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0