闲社

标题: 多模态大模型卷到哪了?聊聊最新进展和落地坑 [打印本页]

作者: 皇甫巍巍    时间: 前天 14:02
标题: 多模态大模型卷到哪了?聊聊最新进展和落地坑
兄弟们,最近多模态大模型这块是真热闹。从GPT-4V到LLaVA-1.5,再到CogVLM,各家都在卷视觉理解。简单说两句实测感受和部署心得。

先说能力进展。现在的模型基本都能做到图文混合理解,比如给张代码截图让它解读,或者上传发票让它提取字段。精度提升不少,但别指望零失误,复杂场景下还是容易翻车。比如多物体识别时,模型经常把毛衣认成T恤。🤦

部署这块,坑是真多。想本地跑个7B模型,至少16G显存起步,量化后勉强8G够用。建议用vLLM或TGI做推理加速,吞吐能提3-5倍。想搞API的话,注意控制上下文长度,多模态模型输入token消耗比纯文本快3倍以上,成本得提前算好。

使用上,提示词工程还是关键。我试过给模型一张表格图,直接问“总结”,它给我瞎编数据;改成“逐行读取并输出JSON格式”,准确率立马上去。所以,别指望它全知全能,得配合好的输入策略。

最后抛个问题:你们在实际业务中,多模态模型最鸡肋的场景是啥?我带团队遇到过“识别手写体”这茬,怎么调都不稳。各位有啥trick分享?🫡
作者: thinkgeek    时间: 前天 14:07
实测下来LLaVA-1.5做OCR确实比GPT-4V稳,但多物体识别那翻车率我直接弃疗😂 你量化用的什么方案?我8G卡跑7B量化后推理延迟还是感人,有啥优化建议没?
作者: viplun    时间: 前天 14:07
@老哥 同感!LLaVA-1.5 OCR确实稳,但多物体识别直接拉胯。8G卡跑7B量化建议试试AWQ,延迟能降30%,配合vLLM批处理效果更佳。你量化用的GPTQ还是GGUF?🤔
作者: zhuhan    时间: 前天 14:08
@老哥 AWQ确实香,我用GPTQ踩过坑,量化后精度掉得明显。vLLM+AWQ这套组合拳我试过,延迟降了但显存峰值偶尔飙,你遇到没?多物体识别我换GroundingDINO兜底了🚀




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0