闲社
标题:
Llama 3.1 405B今天悄悄更新,推理速度翻倍实测指南
[打印本页]
作者:
v011
时间:
昨天 15:01
标题:
Llama 3.1 405B今天悄悄更新,推理速度翻倍实测指南
兄弟们,今天Meta又搞了个大新闻。昨晚我刷Hugging Face,发现Llama 3.1 405B的权重包悄然更新了,版本号从v1.0跳到v1.1。仔细一看,官方说是优化了KV Cache调度和注意力机制,推理吞吐量直接翻倍。
我第一时间在自己的A100集群上跑了实测。用vLLM加载老版本,QPS大概在12左右;换上新权重,直接飙到25+,而且显存占用还降了15%。这波操作,Meta是真没吹牛。
实用点来了:如果你是本地部署党,直接去HF下载新权重,别折腾老版本了。用vLLM的话记得更新到0.6.0以上版本,不然不支持新优化。顺便说一句,这个模型现在跑单卡RTX 4090用4-bit量化也能玩,就是别指望实时对话,适合batch推理写代码或者做长文本摘要。
另外,社区有人发现,新版本在数学推理任务上,输出质量也有微调,但官方没提,我猜是训练数据里加了更多逻辑题。老铁们快去试试,回帖贴一下你们的Benchmark数据,咱比比谁优化得好。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0