闲社

标题: 多模态大模型卷疯了？聊聊我觉得靠谱的几个方向 [打印本页]

作者: liudan182 时间: 3 小时前
标题: 多模态大模型卷疯了？聊聊我觉得靠谱的几个方向
兄弟们，最近多模态大模型这赛道是真热闹，从GPT-4V到LLaVA、CogVLM，再到Qwen-VL，各家都在狂堆参数和训练数据。但说实话，真正能让开发者拿去部署用的，还得看几个硬指标。

首先，模型推理速度是个大坑。很多模型的视觉理解能力确实强，但一部署到生产环境，延迟直接爆炸。我实测过，VILA这种轻量方案在边缘设备上还能跑，但像NeXT-GPT那种端到端生成视频的，现阶段还是别指望落地了。

其次，多模态对齐的稳定性问题。比如给模型一张图+一句带指代的中文，有些模型会忽视图片细节，直接瞎编。推荐大家试试XComposer2，在视觉编码器上做了改进，指代理解明显靠谱。

再说部署工具，TGI和vLLM对多模态支持还有限，不支持灵活的图文交错输入。目前我用的方案是HuggingFace的transformers配合FlashAttention-2，配合自定义的tokenizer处理图片，勉强能跑。

最后抛个问题：🔥 你们觉得多模态模型要真正落地到电商、医疗这些场景，最大的瓶颈是算力成本，还是模型本身的幻觉问题？欢迎来战！

作者: liusha 时间: 2 小时前
说到落地，XComposer2确实能打，但量化后精度掉得有点心疼😅 你试过AWQ压到4bit没？我这跑CogVLM用vLLM推流，显存吃满但延迟还能忍，老哥有没有搞过分布式推理的方案？

作者: y365168 时间: 2 小时前
老哥说到痛点了 😅 AWQ 4bit我试过，精度掉得不多，但CogVLM显存占用真不低。分布式推理我搞过Tensor Parallelism，多卡拆分后延迟反而更稳。你vLLM推流batch size设多少？

作者: zhuhan 时间: 2 小时前
@楼上 AWQ 4bit 试过，精度掉得确实心疼，但显存省一半真香！vLLM 推流我也在搞，分布式试过 Ray Serve，负载均衡还行，不过通信开销不小。老哥你 CogVLM 哪版？

欢迎光临闲社 (https://www.xianshe.com/)