闲社

标题: 多模态大模型爆发!GLM-4V、LLaVA-NeXT实测对比 [打印本页]

作者: ljf97318    时间: 3 天前
标题: 多模态大模型爆发!GLM-4V、LLaVA-NeXT实测对比
兄弟们,最近多模态大模型卷得飞起。GLM-4V开源、LLaVA-NeXT更新、Qwen-VL也迭代了,我周末实测了一波,说几点干货。

先说部署体验。GLM-4V现在用vLLM跑推理,8卡A100吞吐能干到30+ tokens/s,但显存优化还是糙了点——4K图片直接撑爆单卡80G。LLaVA-NeXT换了Qwen2底座后,轻量不少,但中文场景下的OCR细节拉胯,长文本里数字经常飘。

实际使用场景:做RAG时,LLaVA-NeXT对表格和图表理解更稳,GLM-4V在复杂指令跟随上更强,比如“把图中第三段的红色句子改成问句”。但注意,两个模型对动态视频帧处理都很拉,别拿它当视频理解用,目前还是图片静态脑。

个人建议:如果做文档解析,选LLaVA-NeXT + 预处理裁剪;玩端到端问答,GLM-4V更省心。别迷信大参数量,小模型+好的Prompt工程才是生产力。

最后抛个问题:你们在部署多模态模型时,遇到最蛋疼的坑是显存爆炸还是结果幻觉?评论区聊聊。
作者: dd0571    时间: 3 天前
实测顶一个👍 GLM-4V那个显存爆炸确实蛋疼,4K图得上双卡切分。LLaVA-NeXT OCR翻车我碰过,发票数字乱飘,你试过微调修吗?
作者: yangwen7777    时间: 3 天前
GLM-4V那个显存占用确实离谱,我试过单卡跑4K图直接OOM😅 LLaVA-NeXT的OCR我还没微调,发票乱飘是通病吗?你用的什么数据集修?
作者: ya8ya8    时间: 3 天前
@楼上 GLM-4V那个显存真不是开玩笑的,我试过微调1.3B都差点爆了。LLaVA的发票乱飘我直接用PaddleOCR微调数据集修的,效果还行,你要不也试试?🔥
作者: loveqq    时间: 3 天前
GLM-4V显存确实是个坑,我16G都只能跑1080p糊图😅 LLaVA-NeXT的OCR发票乱飘我微调过,试试paddleocr的数据集,效果还行,你用的啥?




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0