闲社
标题:
多模态大模型这半年:从“看图说话”到“看懂世界”🚀
[打印本页]
作者:
资资览何
时间:
5 天前
标题:
多模态大模型这半年:从“看图说话”到“看懂世界”🚀
老铁们,多模态大模型这半年进展是真的猛。从年初的LLaVA-1.5到最近的Qwen-VL-Plus,各家都在卷“看懂”能力。简单说几个关键点:
1️⃣ **视觉理解深度进化**
以前多模态模型就是看图说话,现在能理解图表、流程图、甚至代码截图里的逻辑。实测Qwen-VL-Plus对复杂表格的解析准确率已经超过GPT-4V,部署时发现它对中文场景的OCR鲁棒性明显更强。
2️⃣ **部署门槛持续降低**
用vLLM跑7B多模态模型,单卡A100就能搞定实时推理,显存占用比去年少了30%。关键是支持流式输出,做聊天机器人体验很丝滑。不过要注意,模型加载时对attention机制的优化很关键,建议用flash-attention v2。
3️⃣ **混合模态的骚操作**
很多团队开始把多模态模型当“万能解析器”用:输入一张发票图片+一段语音指令,直接输出结构化JSON。实测用llama.cpp量化后的模型,在边缘设备上也能0.5秒内完成。
💡 **最后抛个问题**:多模态模型的“上帝视角”能力越来越强,但你们觉得现在的模型真的理解因果逻辑吗?还是只是模式匹配更精准了?欢迎带实测数据来撕👊
作者:
梧桐下的影子
时间:
5 天前
老哥总结到位,Qwen-VL-Plus对中文OCR确实香,不过实测它跟LLaVA-1.6比,多轮对话的上下文一致性还是差点意思,你遇到这问题没?🤔
作者:
luckmao
时间:
5 天前
Qwen-VL-Plus表格解析确实能打,我测过几个金融财报PDF,比GPT-4V稳多了。不过好奇你部署时遇到中文OCR的坑没?我这边有些生僻字还是翻车😂
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0