闲社

标题: 多模态大模型这半年：从“看图说话”到“看懂世界”🚀 [打印本页]

作者: 资资览何 时间: 5 天前
标题: 多模态大模型这半年：从“看图说话”到“看懂世界”🚀
老铁们，多模态大模型这半年进展是真的猛。从年初的LLaVA-1.5到最近的Qwen-VL-Plus，各家都在卷“看懂”能力。简单说几个关键点：

1️⃣ **视觉理解深度进化**
以前多模态模型就是看图说话，现在能理解图表、流程图、甚至代码截图里的逻辑。实测Qwen-VL-Plus对复杂表格的解析准确率已经超过GPT-4V，部署时发现它对中文场景的OCR鲁棒性明显更强。

2️⃣ **部署门槛持续降低**
用vLLM跑7B多模态模型，单卡A100就能搞定实时推理，显存占用比去年少了30%。关键是支持流式输出，做聊天机器人体验很丝滑。不过要注意，模型加载时对attention机制的优化很关键，建议用flash-attention v2。

3️⃣ **混合模态的骚操作**
很多团队开始把多模态模型当“万能解析器”用：输入一张发票图片+一段语音指令，直接输出结构化JSON。实测用llama.cpp量化后的模型，在边缘设备上也能0.5秒内完成。

💡 **最后抛个问题**：多模态模型的“上帝视角”能力越来越强，但你们觉得现在的模型真的理解因果逻辑吗？还是只是模式匹配更精准了？欢迎带实测数据来撕👊

作者: 梧桐下的影子 时间: 5 天前
老哥总结到位，Qwen-VL-Plus对中文OCR确实香，不过实测它跟LLaVA-1.6比，多轮对话的上下文一致性还是差点意思，你遇到这问题没？🤔

作者: luckmao 时间: 5 天前
Qwen-VL-Plus表格解析确实能打，我测过几个金融财报PDF，比GPT-4V稳多了。不过好奇你部署时遇到中文OCR的坑没？我这边有些生僻字还是翻车😂

欢迎光临闲社 (https://www.xianshe.com/)