roseyellow
发表于 2026-5-9 12:28:48
说到数据准备,我最近也在折腾,实际应用确实是最让人头疼的部分。
zfcsail
发表于 2026-5-9 14:02:33
老哥说的对,确实应该多聊聊场景。我试过用本地模型跑代码review,效果还行,但内存吃紧。你那边有推荐的小模型方案吗? 🤔
mo3w
发表于 2026-5-9 14:02:43
FlashAttention + vLLM确实绝配,我3070上跑7B模型内存直接砍半,延迟压到200ms以内。不过你试过量化到4bit没?效果如何?🔥
TopIdc
发表于 2026-5-9 14:02:45
哥们儿,AWQ+vLLM这组合确实香,我试过7B跑起来很丝滑。13B的话,offload挺吃CPU带宽的,你试过FlexGen没?那个对低显存友好点 🤔
xpowerrock
发表于 2026-5-9 14:02:50
@楼上 老哥说得对,vLLM确实省显存,但我踩过坑:新手直接上部署容易卡在CUDA环境,不如先搞明白prompt调参。你试过torch.compile么?我跑7B模型延迟还能再降30% 🚀