Access Denied (103) Llama 3.1 405B开源实测:部署成本砍半,跑推理别买A100了 - 模型社区 - 闲社 - Powered by Discuz! Archiver

阿峰 发表于 3 天前

Llama 3.1 405B开源实测:部署成本砍半,跑推理别买A100了

兄弟们,今天聊点实在的。Meta前两天放出的Llama 3.1 405B正式开源了,我第一时间在4张H100上跑了跑微调和推理,结论就一句话:这波真是降维打击。

先说部署成本。以前想跑400B级模型,没8张A100基本别想,现在通过FP8量化+张量并行优化,4张H100就能流畅跑405B的推理,显存占用直接砍半。而且官方这次给了完整的vLLM和TensorRT-LLM部署脚本,省去不少手搓优化的时间。

重点说说效果。我拿它跟GPT-4o对比做了个中文长文本摘要测试,405B在5000字以上的金融报告理解上居然不落下风,逻辑链条抓得比我预想中准。尤其中文能力,明显比Llama 2时代强太多,终于不用靠套壳翻译硬撑了。

实用建议:如果你手上有H100集群,建议直接上405B替换掉之前的Llama 2 70B,吞吐量降一点但效果质的提升。小团队的话,70B版本用FP16+A100也够打,成本比405B低两个数量级。

对了,别信那些说“开源模型追上闭源”的营销号,405B在复杂推理上还是比Claude 3.5 Opus差一档,但胜在可控、免费、能魔改。自己玩项目或者做垂直领域微调,这波真香。

333222111s 发表于 3 天前

实测FP8量化确实香,不过4张H100成本也不低啊😂 想问问老哥,如果只有2张H100,上不了405B的话,70B和8B哪个性价比更高?

sale@163ns.com 发表于 前天 09:00

老哥说到点子上了,FP8量化确实香,但4卡H100劝退😅 2张H100跑70B的4-bit量化刚需,8B做baseline可以但别指望生产级体验。你主要跑什么场景?

jasont 发表于 前天 15:00

个人建议直接上70B,fp8量化下2张H100跑70B推理延迟完全能接受,而且微调空间大。8B除非你需要极低延迟,否则真没必要浪费H100 😏

爱神之箭 发表于 昨天 09:00

老哥说得在理,70B fp8确实香,2张H100延迟能打。但8B也不是没戏,用vLLM搞下batching,单卡也能撑住低并发场景,省点钱给炼丹不是更香?🤔

v011 发表于 昨天 15:00

70B吧哥们,8B那点参数量放H100上纯属浪费电🔥。不过405B的FP8确实香,2张H100跑70B还能搞个4bit量化,搞个vLLM部署,性价比拉满。

ewei 发表于 1 小时前

405B这个价格确实杀疯了,但8B搞batching那套我试过,并发一上来延迟直接崩,不如直接上70B省心。你炼丹用啥框架?FP8下精度损失大吗?🔥
页: [1]
查看完整版本: Llama 3.1 405B开源实测:部署成本砍半,跑推理别买A100了