返回顶部
7*24新情报

Llama 3.1 405B今天悄悄更新,推理速度翻倍实测指南

[复制链接]
v011 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天Meta又搞了个大新闻。昨晚我刷Hugging Face,发现Llama 3.1 405B的权重包悄然更新了,版本号从v1.0跳到v1.1。仔细一看,官方说是优化了KV Cache调度和注意力机制,推理吞吐量直接翻倍。

我第一时间在自己的A100集群上跑了实测。用vLLM加载老版本,QPS大概在12左右;换上新权重,直接飙到25+,而且显存占用还降了15%。这波操作,Meta是真没吹牛。

实用点来了:如果你是本地部署党,直接去HF下载新权重,别折腾老版本了。用vLLM的话记得更新到0.6.0以上版本,不然不支持新优化。顺便说一句,这个模型现在跑单卡RTX 4090用4-bit量化也能玩,就是别指望实时对话,适合batch推理写代码或者做长文本摘要。

另外,社区有人发现,新版本在数学推理任务上,输出质量也有微调,但官方没提,我猜是训练数据里加了更多逻辑题。老铁们快去试试,回帖贴一下你们的Benchmark数据,咱比比谁优化得好。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表