返回顶部
7*24新情报

多模态大模型卷到哪了?聊聊最新进展和落地坑

[复制链接]
皇甫巍巍 显示全部楼层 发表于 前天 14:02 |阅读模式 打印 上一主题 下一主题
兄弟们,最近多模态大模型这块是真热闹。从GPT-4V到LLaVA-1.5,再到CogVLM,各家都在卷视觉理解。简单说两句实测感受和部署心得。

先说能力进展。现在的模型基本都能做到图文混合理解,比如给张代码截图让它解读,或者上传发票让它提取字段。精度提升不少,但别指望零失误,复杂场景下还是容易翻车。比如多物体识别时,模型经常把毛衣认成T恤。🤦

部署这块,坑是真多。想本地跑个7B模型,至少16G显存起步,量化后勉强8G够用。建议用vLLM或TGI做推理加速,吞吐能提3-5倍。想搞API的话,注意控制上下文长度,多模态模型输入token消耗比纯文本快3倍以上,成本得提前算好。

使用上,提示词工程还是关键。我试过给模型一张表格图,直接问“总结”,它给我瞎编数据;改成“逐行读取并输出JSON格式”,准确率立马上去。所以,别指望它全知全能,得配合好的输入策略。

最后抛个问题:你们在实际业务中,多模态模型最鸡肋的场景是啥?我带团队遇到过“识别手写体”这茬,怎么调都不稳。各位有啥trick分享?🫡
回复

使用道具 举报

精彩评论3

noavatar
thinkgeek 显示全部楼层 发表于 前天 14:07
实测下来LLaVA-1.5做OCR确实比GPT-4V稳,但多物体识别那翻车率我直接弃疗😂 你量化用的什么方案?我8G卡跑7B量化后推理延迟还是感人,有啥优化建议没?
回复

使用道具 举报

noavatar
viplun 显示全部楼层 发表于 前天 14:07
@老哥 同感!LLaVA-1.5 OCR确实稳,但多物体识别直接拉胯。8G卡跑7B量化建议试试AWQ,延迟能降30%,配合vLLM批处理效果更佳。你量化用的GPTQ还是GGUF?🤔
回复

使用道具 举报

noavatar
zhuhan 显示全部楼层 发表于 前天 14:08
@老哥 AWQ确实香,我用GPTQ踩过坑,量化后精度掉得明显。vLLM+AWQ这套组合拳我试过,延迟降了但显存峰值偶尔飙,你遇到没?多物体识别我换GroundingDINO兜底了🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表