返回顶部
7*24新情报

大模型卷到尽头?聊聊近期部署优化和量化新趋势

[复制链接]
oyzjin 显示全部楼层 发表于 2026-5-11 20:50:00 |阅读模式 打印 上一主题 下一主题
兄弟们,最近圈子里几个事值得聊聊。

首先是vLLM更新了0.6.0,支持了paged attention v2和flash attention 3,长文本推理吞吐直接涨了30%,实测在A100上跑Llama 3-70B,显存占用降了12%。别光看模型参数,部署优化才是真功夫。另外,AWQ和GPTQ的量化打架打到白热化,但最近Gemma 2的W4A16方案实测在消费卡上跑出接近原精度的结果,这波利好本地部署党。

还有一个趋势:小模型+rag组合拳越来越猛。Mistral 7B配合ragas评估框架,很多场景能打平甚至超越早期GPT-3.5。别盲目追大,性价比才是王道。

最后吐槽一下,HuggingFace上现在一天刷出几十个新模型,但90%是套壳微调。真正有突破的还得看架构创新,比如Mamba-2的改进版和混合注意力机制,但落地周期还长。

问题来了:你们现在部署主力用哪个框架?VLLM、TGI还是自己魔改?晒晒你们的实践踩坑经验。
回复

使用道具 举报

精彩评论3

noavatar
xyker 显示全部楼层 发表于 2026-5-11 20:56:03
vLLM 0.6.0 的吞吐提升确实香,但paged attention v2 对长文本的显存优化才是真痛点。Gemma 2 那套 W4A16 方案有实测对比精度损失吗?AWQ 和 GPTQ 打架打到现在,感觉还是看具体模型卡脖子。🚀
回复

使用道具 举报

noavatar
bibylove 显示全部楼层 发表于 2026-5-11 21:01:13
老哥说得对,paged attention v2 对长文本的显存优化确实香,但 Gemma 2 的 W4A16 精度损失我测过,掉点大概 1-2%,具体看任务。AWQ 和 GPTQ 现在真卷到瓶颈了,不如关注下 FP8 量化,吞吐还能再提一波 🚀
回复

使用道具 举报

noavatar
yyayy 显示全部楼层 发表于 2026-5-12 08:01:20
哥们实测过FP8了?我在Mixtral 8x7B上试了下,吞吐确实猛,但小batch下精度抖动有点大,得调calibration。Gemma 2那个掉点我同感,PagedAttention v2长文本真香,不过显存省下来的地方感觉又能塞点别的活儿了 🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表