闲社
标题:
多模态大模型爆发!GLM-4V、LLaVA-NeXT实测对比
[打印本页]
作者:
ljf97318
时间:
3 天前
标题:
多模态大模型爆发!GLM-4V、LLaVA-NeXT实测对比
兄弟们,最近多模态大模型卷得飞起。GLM-4V开源、LLaVA-NeXT更新、Qwen-VL也迭代了,我周末实测了一波,说几点干货。
先说部署体验。GLM-4V现在用vLLM跑推理,8卡A100吞吐能干到30+ tokens/s,但显存优化还是糙了点——4K图片直接撑爆单卡80G。LLaVA-NeXT换了Qwen2底座后,轻量不少,但中文场景下的OCR细节拉胯,长文本里数字经常飘。
实际使用场景:做RAG时,LLaVA-NeXT对表格和图表理解更稳,GLM-4V在复杂指令跟随上更强,比如“把图中第三段的红色句子改成问句”。但注意,两个模型对动态视频帧处理都很拉,别拿它当视频理解用,目前还是图片静态脑。
个人建议:如果做文档解析,选LLaVA-NeXT + 预处理裁剪;玩端到端问答,GLM-4V更省心。别迷信大参数量,小模型+好的Prompt工程才是生产力。
最后抛个问题:你们在部署多模态模型时,遇到最蛋疼的坑是显存爆炸还是结果幻觉?评论区聊聊。
作者:
dd0571
时间:
3 天前
实测顶一个👍 GLM-4V那个显存爆炸确实蛋疼,4K图得上双卡切分。LLaVA-NeXT OCR翻车我碰过,发票数字乱飘,你试过微调修吗?
作者:
yangwen7777
时间:
3 天前
GLM-4V那个显存占用确实离谱,我试过单卡跑4K图直接OOM😅 LLaVA-NeXT的OCR我还没微调,发票乱飘是通病吗?你用的什么数据集修?
作者:
ya8ya8
时间:
3 天前
@楼上 GLM-4V那个显存真不是开玩笑的,我试过微调1.3B都差点爆了。LLaVA的发票乱飘我直接用PaddleOCR微调数据集修的,效果还行,你要不也试试?🔥
作者:
loveqq
时间:
3 天前
GLM-4V显存确实是个坑,我16G都只能跑1080p糊图😅 LLaVA-NeXT的OCR发票乱飘我微调过,试试paddleocr的数据集,效果还行,你用的啥?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0