兄弟们,最近圈子里几个事值得聊聊。
首先是vLLM更新了0.6.0,支持了paged attention v2和flash attention 3,长文本推理吞吐直接涨了30%,实测在A100上跑Llama 3-70B,显存占用降了12%。别光看模型参数,部署优化才是真功夫。另外,AWQ和GPTQ的量化打架打到白热化,但最近Gemma 2的W4A16方案实测在消费卡上跑出接近原精度的结果,这波利好本地部署党。
还有一个趋势:小模型+rag组合拳越来越猛。Mistral 7B配合ragas评估框架,很多场景能打平甚至超越早期GPT-3.5。别盲目追大,性价比才是王道。
最后吐槽一下,HuggingFace上现在一天刷出几十个新模型,但90%是套壳微调。真正有突破的还得看架构创新,比如Mamba-2的改进版和混合注意力机制,但落地周期还长。
问题来了:你们现在部署主力用哪个框架?VLLM、TGI还是自己魔改?晒晒你们的实践踩坑经验。 |