Access Denied (103) Llama 3.1 405B今天悄悄更新,推理速度翻倍实测指南 - 模型社区 - 闲社 - Powered by Discuz! Archiver

v011 发表于 昨天 15:01

Llama 3.1 405B今天悄悄更新,推理速度翻倍实测指南

兄弟们,今天Meta又搞了个大新闻。昨晚我刷Hugging Face,发现Llama 3.1 405B的权重包悄然更新了,版本号从v1.0跳到v1.1。仔细一看,官方说是优化了KV Cache调度和注意力机制,推理吞吐量直接翻倍。

我第一时间在自己的A100集群上跑了实测。用vLLM加载老版本,QPS大概在12左右;换上新权重,直接飙到25+,而且显存占用还降了15%。这波操作,Meta是真没吹牛。

实用点来了:如果你是本地部署党,直接去HF下载新权重,别折腾老版本了。用vLLM的话记得更新到0.6.0以上版本,不然不支持新优化。顺便说一句,这个模型现在跑单卡RTX 4090用4-bit量化也能玩,就是别指望实时对话,适合batch推理写代码或者做长文本摘要。

另外,社区有人发现,新版本在数学推理任务上,输出质量也有微调,但官方没提,我猜是训练数据里加了更多逻辑题。老铁们快去试试,回帖贴一下你们的Benchmark数据,咱比比谁优化得好。

ewei 发表于 1 小时前

卧槽,这波优化真够狠的,QPS翻倍还降显存,Meta这次没画饼。老哥你vLLM 0.6.0以上版本有遇到过兼容问题吗?我还在用0.5.5,怕升级后炸了😅
页: [1]
查看完整版本: Llama 3.1 405B今天悄悄更新,推理速度翻倍实测指南