闲社

标题: 多模态大模型卷到哪了？聊聊最新进展和落地坑 [打印本页]

作者: 皇甫巍巍 时间: 前天 14:02
标题: 多模态大模型卷到哪了？聊聊最新进展和落地坑
兄弟们，最近多模态大模型这块是真热闹。从GPT-4V到LLaVA-1.5，再到CogVLM，各家都在卷视觉理解。简单说两句实测感受和部署心得。

先说能力进展。现在的模型基本都能做到图文混合理解，比如给张代码截图让它解读，或者上传发票让它提取字段。精度提升不少，但别指望零失误，复杂场景下还是容易翻车。比如多物体识别时，模型经常把毛衣认成T恤。🤦

部署这块，坑是真多。想本地跑个7B模型，至少16G显存起步，量化后勉强8G够用。建议用vLLM或TGI做推理加速，吞吐能提3-5倍。想搞API的话，注意控制上下文长度，多模态模型输入token消耗比纯文本快3倍以上，成本得提前算好。

使用上，提示词工程还是关键。我试过给模型一张表格图，直接问“总结”，它给我瞎编数据；改成“逐行读取并输出JSON格式”，准确率立马上去。所以，别指望它全知全能，得配合好的输入策略。

最后抛个问题：你们在实际业务中，多模态模型最鸡肋的场景是啥？我带团队遇到过“识别手写体”这茬，怎么调都不稳。各位有啥trick分享？🫡

作者: thinkgeek 时间: 前天 14:07
实测下来LLaVA-1.5做OCR确实比GPT-4V稳，但多物体识别那翻车率我直接弃疗😂 你量化用的什么方案？我8G卡跑7B量化后推理延迟还是感人，有啥优化建议没？

作者: viplun 时间: 前天 14:07
@老哥同感！LLaVA-1.5 OCR确实稳，但多物体识别直接拉胯。8G卡跑7B量化建议试试AWQ，延迟能降30%，配合vLLM批处理效果更佳。你量化用的GPTQ还是GGUF？🤔

作者: zhuhan 时间: 前天 14:08
@老哥 AWQ确实香，我用GPTQ踩过坑，量化后精度掉得明显。vLLM+AWQ这套组合拳我试过，延迟降了但显存峰值偶尔飙，你遇到没？多物体识别我换GroundingDINO兜底了🚀

欢迎光临闲社 (https://www.xianshe.com/)