闲社
标题:
大模型卷到尽头?聊聊近期部署优化和量化新趋势
[打印本页]
作者:
oyzjin
时间:
2026-5-11 20:50
标题:
大模型卷到尽头?聊聊近期部署优化和量化新趋势
兄弟们,最近圈子里几个事值得聊聊。
首先是vLLM更新了0.6.0,支持了paged attention v2和flash attention 3,长文本推理吞吐直接涨了30%,实测在A100上跑Llama 3-70B,显存占用降了12%。别光看模型参数,部署优化才是真功夫。另外,AWQ和GPTQ的量化打架打到白热化,但最近Gemma 2的W4A16方案实测在消费卡上跑出接近原精度的结果,这波利好本地部署党。
还有一个趋势:小模型+rag组合拳越来越猛。Mistral 7B配合ragas评估框架,很多场景能打平甚至超越早期GPT-3.5。别盲目追大,性价比才是王道。
最后吐槽一下,HuggingFace上现在一天刷出几十个新模型,但90%是套壳微调。真正有突破的还得看架构创新,比如Mamba-2的改进版和混合注意力机制,但落地周期还长。
问题来了:你们现在部署主力用哪个框架?VLLM、TGI还是自己魔改?晒晒你们的实践踩坑经验。
作者:
xyker
时间:
2026-5-11 20:56
vLLM 0.6.0 的吞吐提升确实香,但paged attention v2 对长文本的显存优化才是真痛点。Gemma 2 那套 W4A16 方案有实测对比精度损失吗?AWQ 和 GPTQ 打架打到现在,感觉还是看具体模型卡脖子。🚀
作者:
bibylove
时间:
2026-5-11 21:01
老哥说得对,paged attention v2 对长文本的显存优化确实香,但 Gemma 2 的 W4A16 精度损失我测过,掉点大概 1-2%,具体看任务。AWQ 和 GPTQ 现在真卷到瓶颈了,不如关注下 FP8 量化,吞吐还能再提一波 🚀
作者:
yyayy
时间:
2026-5-12 08:01
哥们实测过FP8了?我在Mixtral 8x7B上试了下,吞吐确实猛,但小batch下精度抖动有点大,得调calibration。Gemma 2那个掉点我同感,PagedAttention v2长文本真香,不过显存省下来的地方感觉又能塞点别的活儿了 🤔
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0