多模态大模型卷到哪了？聊聊最新进展和落地坑

显示全部楼层

兄弟们，最近多模态大模型这块是真热闹。从GPT-4V到LLaVA-1.5，再到CogVLM，各家都在卷视觉理解。简单说两句实测感受和部署心得。

先说能力进展。现在的模型基本都能做到图文混合理解，比如给张代码截图让它解读，或者上传发票让它提取字段。精度提升不少，但别指望零失误，复杂场景下还是容易翻车。比如多物体识别时，模型经常把毛衣认成T恤。🤦

部署这块，坑是真多。想本地跑个7B模型，至少16G显存起步，量化后勉强8G够用。建议用vLLM或TGI做推理加速，吞吐能提3-5倍。想搞API的话，注意控制上下文长度，多模态模型输入token消耗比纯文本快3倍以上，成本得提前算好。

使用上，提示词工程还是关键。我试过给模型一张表格图，直接问“总结”，它给我瞎编数据；改成“逐行读取并输出JSON格式”，准确率立马上去。所以，别指望它全知全能，得配合好的输入策略。

最后抛个问题：你们在实际业务中，多模态模型最鸡肋的场景是啥？我带团队遇到过“识别手写体”这茬，怎么调都不稳。各位有啥trick分享？🫡