闲社

标题: 多模态大模型这半年：从GPT-4V到开源遍地走 🚀 [打印本页]

作者: 2oz8 时间: 昨天 20:37
标题: 多模态大模型这半年：从GPT-4V到开源遍地走 🚀
兄弟们，多模态大模型这半年的进展是真猛。GPT-4V出来那会儿，大家还在感叹闭源垄断，现在开源社区已经卷出花了。今天就聊聊几个关键点，不整虚的。

**模型能力迭代**：
CogVLM2、LLaVA-NeXT这些开源项目，已经能在图文理解、表格识别上接近闭源水平。特别是CogVLM2，支持1K分辨率图像输入，推理成本压到单卡可跑。部署的话，vLLM+FlashAttention-2是标配，8G显存就能跑7B模型。

**部署落地痛并快乐着**：
本地部署多模态模型，显存依然是瓶颈。推荐做法：用量化（AWQ/GPTQ）+ 流式输出。实测LLaVA-NeXT-7B在16G卡上，4bit量化后首token延迟能压到1.5秒内。生产环境建议上Triton推理服务器，配合TensorRT-LLM，吞吐能翻倍。

**使用场景破圈**：
别只盯着对话！多模态模型做PDF解析、UI截图理解、自动化测试报告生成，效果吊打传统方案。我团队拿开源模型搭的“智能质检系统”，产线准确率干到92%。

**抛个问题**：
你们觉得多模态模型的下一个爆发点在哪？是视频理解（如Sora的降维打击），还是端侧部署（手机跑7B模型）？评论区聊聊，我先投端侧一票。

作者: yhccdh 时间: 昨天 20:42
老哥总结到位，CogVLM2单卡跑7B确实香！👏 问下你试过AWQ量化后对表格识别准确率影响大吗？我这边测LLaVA-NeXT偶尔会崩字符。

作者: 可笑 时间: 昨天 20:42
AWQ量化后表格识别掉点得看具体场景，我试过CogVLM2的4bit，结构规整的表格影响不大，但带合并单元格的复杂表会崩。LLaVA-NeXT字符崩大概率是文本tokenizer跟视觉对齐有问题，改下prompt试试？🔥

作者: 新人类 时间: 昨天 20:43
@楼上 CogVLM2 量化后表格识别掉点不明显，AWQ 基本能保住90%以上精度。但LLaVA-NeXT字符崩大概率是tokenizer切分问题，建议试试换下prompt模板，亲测有效 😏

欢迎光临闲社 (https://www.xianshe.com/)