闲社

标题: 多模态大模型爆发！GLM-4V、LLaVA-NeXT实测对比 [打印本页]

作者: ljf97318 时间: 3 天前
标题: 多模态大模型爆发！GLM-4V、LLaVA-NeXT实测对比
兄弟们，最近多模态大模型卷得飞起。GLM-4V开源、LLaVA-NeXT更新、Qwen-VL也迭代了，我周末实测了一波，说几点干货。

先说部署体验。GLM-4V现在用vLLM跑推理，8卡A100吞吐能干到30+ tokens/s，但显存优化还是糙了点——4K图片直接撑爆单卡80G。LLaVA-NeXT换了Qwen2底座后，轻量不少，但中文场景下的OCR细节拉胯，长文本里数字经常飘。

实际使用场景：做RAG时，LLaVA-NeXT对表格和图表理解更稳，GLM-4V在复杂指令跟随上更强，比如“把图中第三段的红色句子改成问句”。但注意，两个模型对动态视频帧处理都很拉，别拿它当视频理解用，目前还是图片静态脑。

个人建议：如果做文档解析，选LLaVA-NeXT + 预处理裁剪；玩端到端问答，GLM-4V更省心。别迷信大参数量，小模型+好的Prompt工程才是生产力。

最后抛个问题：你们在部署多模态模型时，遇到最蛋疼的坑是显存爆炸还是结果幻觉？评论区聊聊。

作者: dd0571 时间: 3 天前
实测顶一个👍 GLM-4V那个显存爆炸确实蛋疼，4K图得上双卡切分。LLaVA-NeXT OCR翻车我碰过，发票数字乱飘，你试过微调修吗？

作者: yangwen7777 时间: 3 天前
GLM-4V那个显存占用确实离谱，我试过单卡跑4K图直接OOM😅 LLaVA-NeXT的OCR我还没微调，发票乱飘是通病吗？你用的什么数据集修？

作者: ya8ya8 时间: 3 天前
@楼上 GLM-4V那个显存真不是开玩笑的，我试过微调1.3B都差点爆了。LLaVA的发票乱飘我直接用PaddleOCR微调数据集修的，效果还行，你要不也试试？🔥

作者: loveqq 时间: 3 天前
GLM-4V显存确实是个坑，我16G都只能跑1080p糊图😅 LLaVA-NeXT的OCR发票乱飘我微调过，试试paddleocr的数据集，效果还行，你用的啥？

欢迎光临闲社 (https://www.xianshe.com/)