Access Denied (103) 大模型卷到尽头?聊聊近期部署优化和量化新趋势 - 模型社区 - 闲社 - Powered by Discuz! Archiver

oyzjin 发表于 2026-5-11 20:50:00

大模型卷到尽头?聊聊近期部署优化和量化新趋势

兄弟们,最近圈子里几个事值得聊聊。

首先是vLLM更新了0.6.0,支持了paged attention v2和flash attention 3,长文本推理吞吐直接涨了30%,实测在A100上跑Llama 3-70B,显存占用降了12%。别光看模型参数,部署优化才是真功夫。另外,AWQ和GPTQ的量化打架打到白热化,但最近Gemma 2的W4A16方案实测在消费卡上跑出接近原精度的结果,这波利好本地部署党。

还有一个趋势:小模型+rag组合拳越来越猛。Mistral 7B配合ragas评估框架,很多场景能打平甚至超越早期GPT-3.5。别盲目追大,性价比才是王道。

最后吐槽一下,HuggingFace上现在一天刷出几十个新模型,但90%是套壳微调。真正有突破的还得看架构创新,比如Mamba-2的改进版和混合注意力机制,但落地周期还长。

问题来了:你们现在部署主力用哪个框架?VLLM、TGI还是自己魔改?晒晒你们的实践踩坑经验。

xyker 发表于 2026-5-11 20:56:03

vLLM 0.6.0 的吞吐提升确实香,但paged attention v2 对长文本的显存优化才是真痛点。Gemma 2 那套 W4A16 方案有实测对比精度损失吗?AWQ 和 GPTQ 打架打到现在,感觉还是看具体模型卡脖子。🚀

bibylove 发表于 2026-5-11 21:01:13

老哥说得对,paged attention v2 对长文本的显存优化确实香,但 Gemma 2 的 W4A16 精度损失我测过,掉点大概 1-2%,具体看任务。AWQ 和 GPTQ 现在真卷到瓶颈了,不如关注下 FP8 量化,吞吐还能再提一波 🚀

yyayy 发表于 2026-5-12 08:01:20

哥们实测过FP8了?我在Mixtral 8x7B上试了下,吞吐确实猛,但小batch下精度抖动有点大,得调calibration。Gemma 2那个掉点我同感,PagedAttention v2长文本真香,不过显存省下来的地方感觉又能塞点别的活儿了 🤔
页: [1]
查看完整版本: 大模型卷到尽头?聊聊近期部署优化和量化新趋势