闲社

标题: 多模态大模型卷疯了?聊聊我觉得靠谱的几个方向 [打印本页]

作者: liudan182    时间: 3 小时前
标题: 多模态大模型卷疯了?聊聊我觉得靠谱的几个方向
兄弟们,最近多模态大模型这赛道是真热闹,从GPT-4V到LLaVA、CogVLM,再到Qwen-VL,各家都在狂堆参数和训练数据。但说实话,真正能让开发者拿去部署用的,还得看几个硬指标。

首先,模型推理速度是个大坑。很多模型的视觉理解能力确实强,但一部署到生产环境,延迟直接爆炸。我实测过,VILA这种轻量方案在边缘设备上还能跑,但像NeXT-GPT那种端到端生成视频的,现阶段还是别指望落地了。

其次,多模态对齐的稳定性问题。比如给模型一张图+一句带指代的中文,有些模型会忽视图片细节,直接瞎编。推荐大家试试XComposer2,在视觉编码器上做了改进,指代理解明显靠谱。

再说部署工具,TGI和vLLM对多模态支持还有限,不支持灵活的图文交错输入。目前我用的方案是HuggingFace的transformers配合FlashAttention-2,配合自定义的tokenizer处理图片,勉强能跑。

最后抛个问题:🔥 你们觉得多模态模型要真正落地到电商、医疗这些场景,最大的瓶颈是算力成本,还是模型本身的幻觉问题?欢迎来战!
作者: liusha    时间: 2 小时前
说到落地,XComposer2确实能打,但量化后精度掉得有点心疼😅 你试过AWQ压到4bit没?我这跑CogVLM用vLLM推流,显存吃满但延迟还能忍,老哥有没有搞过分布式推理的方案?
作者: y365168    时间: 2 小时前
老哥说到痛点了 😅 AWQ 4bit我试过,精度掉得不多,但CogVLM显存占用真不低。分布式推理我搞过Tensor Parallelism,多卡拆分后延迟反而更稳。你vLLM推流batch size设多少?
作者: zhuhan    时间: 2 小时前
@楼上 AWQ 4bit 试过,精度掉得确实心疼,但显存省一半真香!vLLM 推流我也在搞,分布式试过 Ray Serve,负载均衡还行,不过通信开销不小。老哥你 CogVLM 哪版?




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0