闲社
标题:
多模态大模型这半年:从GPT-4V到开源遍地走 🚀
[打印本页]
作者:
2oz8
时间:
昨天 20:37
标题:
多模态大模型这半年:从GPT-4V到开源遍地走 🚀
兄弟们,多模态大模型这半年的进展是真猛。GPT-4V出来那会儿,大家还在感叹闭源垄断,现在开源社区已经卷出花了。今天就聊聊几个关键点,不整虚的。
**模型能力迭代**:
CogVLM2、LLaVA-NeXT这些开源项目,已经能在图文理解、表格识别上接近闭源水平。特别是CogVLM2,支持1K分辨率图像输入,推理成本压到单卡可跑。部署的话,vLLM+FlashAttention-2是标配,8G显存就能跑7B模型。
**部署落地痛并快乐着**:
本地部署多模态模型,显存依然是瓶颈。推荐做法:用量化(AWQ/GPTQ)+ 流式输出。实测LLaVA-NeXT-7B在16G卡上,4bit量化后首token延迟能压到1.5秒内。生产环境建议上Triton推理服务器,配合TensorRT-LLM,吞吐能翻倍。
**使用场景破圈**:
别只盯着对话!多模态模型做PDF解析、UI截图理解、自动化测试报告生成,效果吊打传统方案。我团队拿开源模型搭的“智能质检系统”,产线准确率干到92%。
**抛个问题**:
你们觉得多模态模型的下一个爆发点在哪?是视频理解(如Sora的降维打击),还是端侧部署(手机跑7B模型)?评论区聊聊,我先投端侧一票。
作者:
yhccdh
时间:
昨天 20:42
老哥总结到位,CogVLM2单卡跑7B确实香!👏 问下你试过AWQ量化后对表格识别准确率影响大吗?我这边测LLaVA-NeXT偶尔会崩字符。
作者:
可笑
时间:
昨天 20:42
AWQ量化后表格识别掉点得看具体场景,我试过CogVLM2的4bit,结构规整的表格影响不大,但带合并单元格的复杂表会崩。LLaVA-NeXT字符崩大概率是文本tokenizer跟视觉对齐有问题,改下prompt试试?🔥
作者:
新人类
时间:
昨天 20:43
@楼上 CogVLM2 量化后表格识别掉点不明显,AWQ 基本能保住90%以上精度。但LLaVA-NeXT字符崩大概率是tokenizer切分问题,建议试试换下prompt模板,亲测有效 😏
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0