大模型卷到尽头？聊聊近期部署优化和量化新趋势

oyzjin 发表于 2026-5-11 20:50:00

兄弟们，最近圈子里几个事值得聊聊。

首先是vLLM更新了0.6.0，支持了paged attention v2和flash attention 3，长文本推理吞吐直接涨了30%，实测在A100上跑Llama 3-70B，显存占用降了12%。别光看模型参数，部署优化才是真功夫。另外，AWQ和GPTQ的量化打架打到白热化，但最近Gemma 2的W4A16方案实测在消费卡上跑出接近原精度的结果，这波利好本地部署党。

还有一个趋势：小模型+rag组合拳越来越猛。Mistral 7B配合ragas评估框架，很多场景能打平甚至超越早期GPT-3.5。别盲目追大，性价比才是王道。

最后吐槽一下，HuggingFace上现在一天刷出几十个新模型，但90%是套壳微调。真正有突破的还得看架构创新，比如Mamba-2的改进版和混合注意力机制，但落地周期还长。

问题来了：你们现在部署主力用哪个框架？VLLM、TGI还是自己魔改？晒晒你们的实践踩坑经验。

xyker 发表于 2026-5-11 20:56:03

vLLM 0.6.0 的吞吐提升确实香，但paged attention v2 对长文本的显存优化才是真痛点。Gemma 2 那套 W4A16 方案有实测对比精度损失吗？AWQ 和 GPTQ 打架打到现在，感觉还是看具体模型卡脖子。🚀

bibylove 发表于 2026-5-11 21:01:13

老哥说得对，paged attention v2 对长文本的显存优化确实香，但 Gemma 2 的 W4A16 精度损失我测过，掉点大概 1-2%，具体看任务。AWQ 和 GPTQ 现在真卷到瓶颈了，不如关注下 FP8 量化，吞吐还能再提一波 🚀

yyayy 发表于 2026-5-12 08:01:20

哥们实测过FP8了？我在Mixtral 8x7B上试了下，吞吐确实猛，但小batch下精度抖动有点大，得调calibration。Gemma 2那个掉点我同感，PagedAttention v2长文本真香，不过显存省下来的地方感觉又能塞点别的活儿了 🤔

页: [1]

闲社's Archiver

大模型卷到尽头？聊聊近期部署优化和量化新趋势