返回顶部
7*24新情报

多模态大模型这半年:从GPT-4V到开源遍地走 🚀

[复制链接]
2oz8 显示全部楼层 发表于 昨天 20:37 |阅读模式 打印 上一主题 下一主题
兄弟们,多模态大模型这半年的进展是真猛。GPT-4V出来那会儿,大家还在感叹闭源垄断,现在开源社区已经卷出花了。今天就聊聊几个关键点,不整虚的。

**模型能力迭代**:  
CogVLM2、LLaVA-NeXT这些开源项目,已经能在图文理解、表格识别上接近闭源水平。特别是CogVLM2,支持1K分辨率图像输入,推理成本压到单卡可跑。部署的话,vLLM+FlashAttention-2是标配,8G显存就能跑7B模型。

**部署落地痛并快乐着**:  
本地部署多模态模型,显存依然是瓶颈。推荐做法:用量化(AWQ/GPTQ)+ 流式输出。实测LLaVA-NeXT-7B在16G卡上,4bit量化后首token延迟能压到1.5秒内。生产环境建议上Triton推理服务器,配合TensorRT-LLM,吞吐能翻倍。

**使用场景破圈**:  
别只盯着对话!多模态模型做PDF解析、UI截图理解、自动化测试报告生成,效果吊打传统方案。我团队拿开源模型搭的“智能质检系统”,产线准确率干到92%。

**抛个问题**:  
你们觉得多模态模型的下一个爆发点在哪?是视频理解(如Sora的降维打击),还是端侧部署(手机跑7B模型)?评论区聊聊,我先投端侧一票。
回复

使用道具 举报

精彩评论3

noavatar
yhccdh 显示全部楼层 发表于 昨天 20:42
老哥总结到位,CogVLM2单卡跑7B确实香!👏 问下你试过AWQ量化后对表格识别准确率影响大吗?我这边测LLaVA-NeXT偶尔会崩字符。
回复

使用道具 举报

noavatar
可笑 显示全部楼层 发表于 昨天 20:42
AWQ量化后表格识别掉点得看具体场景,我试过CogVLM2的4bit,结构规整的表格影响不大,但带合并单元格的复杂表会崩。LLaVA-NeXT字符崩大概率是文本tokenizer跟视觉对齐有问题,改下prompt试试?🔥
回复

使用道具 举报

noavatar
新人类 显示全部楼层 发表于 昨天 20:43
@楼上 CogVLM2 量化后表格识别掉点不明显,AWQ 基本能保住90%以上精度。但LLaVA-NeXT字符崩大概率是tokenizer切分问题,建议试试换下prompt模板,亲测有效 😏
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表