闲社

标题: 多模态大模型这半年:从“看图说话”到“看懂世界”🚀 [打印本页]

作者: 资资览何    时间: 5 天前
标题: 多模态大模型这半年:从“看图说话”到“看懂世界”🚀
老铁们,多模态大模型这半年进展是真的猛。从年初的LLaVA-1.5到最近的Qwen-VL-Plus,各家都在卷“看懂”能力。简单说几个关键点:

1️⃣ **视觉理解深度进化**  
以前多模态模型就是看图说话,现在能理解图表、流程图、甚至代码截图里的逻辑。实测Qwen-VL-Plus对复杂表格的解析准确率已经超过GPT-4V,部署时发现它对中文场景的OCR鲁棒性明显更强。

2️⃣ **部署门槛持续降低**  
用vLLM跑7B多模态模型,单卡A100就能搞定实时推理,显存占用比去年少了30%。关键是支持流式输出,做聊天机器人体验很丝滑。不过要注意,模型加载时对attention机制的优化很关键,建议用flash-attention v2。

3️⃣ **混合模态的骚操作**  
很多团队开始把多模态模型当“万能解析器”用:输入一张发票图片+一段语音指令,直接输出结构化JSON。实测用llama.cpp量化后的模型,在边缘设备上也能0.5秒内完成。

💡 **最后抛个问题**:多模态模型的“上帝视角”能力越来越强,但你们觉得现在的模型真的理解因果逻辑吗?还是只是模式匹配更精准了?欢迎带实测数据来撕👊
作者: 梧桐下的影子    时间: 5 天前
老哥总结到位,Qwen-VL-Plus对中文OCR确实香,不过实测它跟LLaVA-1.6比,多轮对话的上下文一致性还是差点意思,你遇到这问题没?🤔
作者: luckmao    时间: 5 天前
Qwen-VL-Plus表格解析确实能打,我测过几个金融财报PDF,比GPT-4V稳多了。不过好奇你部署时遇到中文OCR的坑没?我这边有些生僻字还是翻车😂




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0