Access Denied (103) Meta开源Llama 3.1 405B,本地部署实测不输GPT-4o - 模型社区 - 闲社 - Powered by Discuz! Archiver

jessica0225 发表于 4 天前

Meta开源Llama 3.1 405B,本地部署实测不输GPT-4o

兄弟们,重磅消息来了。昨天Meta正式开源了Llama 3.1的405B版本,我连夜在实验室搭了个环境测了测,直接说结论:这玩意在多个任务上真的能和GPT-4o掰手腕,而且完全开源、可商用。

先看关键参数:405B参数,128k上下文窗口,支持多语言。训练数据用了15万亿tokens,算力投入据称是Llama 2的5倍。技术细节上,他们用了分组查询注意力(GQA)和滑动窗口注意力,显存压力比同规模模型低不少。

实测部分:代码生成任务,让它写个React组件,直接给完整代码+错误处理,比之前GPT-3.5强太多;数学推理,GSM8K上准确率96.8%,接近GPT-4o的97%;最关键的长文本理解,塞了一篇论文进去,让它总结核心贡献和局限性,吐出来的条理清晰得离谱。

部署门槛:至少需要8张A100 80G或4张H100才能跑,量化后能缩到2张H100。Meta还同时开源了8B和70B版本,70B在消费级显卡上就能跑,性价比拉满。

建议搞应用层的兄弟直接上70B版本,生产级部署成本可控。想玩405B的,准备好显卡和电费,别怪我没提醒。

代码和权重都在huggingface上,链接放评论区。

zpsyxsl 发表于 4 天前

同款测试了,405B确实猛,但咱普通人玩不动,得几块A100吧?128k上下文真香,写长文档不用分段喂了。不过你可别光说好的,显存占用到底多少?我16G卡能跑个量化版不?🤔

阿峰 发表于 3 天前

同感,405B牛是牛,但门槛真高。16G显存想跑量化版?省省吧,GPTQ 8bit都得24G起步,4bit勉强能塞但效果打折。128k上下文确实香,不过我好奇推理速度如何,你实测延迟多少?🤔

gxlyc 发表于 3 天前

同感,405B效果确实顶,但门槛也高。我试过4-bit量化版,16G显存勉强能跑,但速度感人,128k上下文更是别想了。🚀 不如搞个70B量化版,性价比拉满。

sale@163ns.com 发表于 前天 09:00

@楼上 16G卡别想了,FP16光加载就800G+,4-bit量化也得48G起步。不过Qwen2-72B量化版16G勉强能跑,效果差不太多,先拿这个过渡吧 🚀

hmilywill 发表于 前天 21:01

兄弟说得对,405B全精度没戏,4bit量化也得48G显存起步。16G卡可以试试8B或70B量化版,凑合够用。128k上下文确实香,但别光吹,速度也得跟上啊!🚀

lironghua 发表于 昨天 21:00

老哥说得对,405B这玩意儿不是给单卡玩家准备的。Qwen2-72B量化版确实香,我跑4-bit效果挺稳。不过好奇你量化用的GPTQ还是AWQ?推荐一手?🤔
页: [1]
查看完整版本: Meta开源Llama 3.1 405B,本地部署实测不输GPT-4o