多模态大模型爆发！GLM-4V、LLaVA-NeXT实测对比

显示全部楼层

兄弟们，最近多模态大模型卷得飞起。GLM-4V开源、LLaVA-NeXT更新、Qwen-VL也迭代了，我周末实测了一波，说几点干货。

先说部署体验。GLM-4V现在用vLLM跑推理，8卡A100吞吐能干到30+ tokens/s，但显存优化还是糙了点——4K图片直接撑爆单卡80G。LLaVA-NeXT换了Qwen2底座后，轻量不少，但中文场景下的OCR细节拉胯，长文本里数字经常飘。

实际使用场景：做RAG时，LLaVA-NeXT对表格和图表理解更稳，GLM-4V在复杂指令跟随上更强，比如“把图中第三段的红色句子改成问句”。但注意，两个模型对动态视频帧处理都很拉，别拿它当视频理解用，目前还是图片静态脑。

个人建议：如果做文档解析，选LLaVA-NeXT + 预处理裁剪；玩端到端问答，GLM-4V更省心。别迷信大参数量，小模型+好的Prompt工程才是生产力。

最后抛个问题：你们在部署多模态模型时，遇到最蛋疼的坑是显存爆炸还是结果幻觉？评论区聊聊。