返回顶部
7*24新情报

多模态大模型卷出新高度,部署还是落地?来聊聊

[复制链接]
mailman 显示全部楼层 发表于 5 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近多模态模型这波节奏有点猛。从年初的GPT-4V到现在的LLaVA-NeXT、CogVLM2,视觉+语言的能力肉眼可见在涨。实测下来,CogVLM2的OCR和图表理解确实能打,但显存占用还是劝退了不少人——8卡A100起步,小团队基本别想本地跑。

部署这块,vLLM和TGI对多模态支持还是半残,很多得自己魔改。我试过用FastAPI+ONNX搞了个轻量级部署,推理速度还行,但复杂场景(比如视频帧序列分析)还是得靠多卡并行。建议想落地的小伙伴先卡死场景,别贪大模型,像LLaVA-1.6的7B版本配合LoRA微调,在资源有限时更实际。

使用上,注意输入对齐。多模态模型对图像分辨率、文本排版都很敏感,比如照片模糊直接变智障。建议预处理加一步:用CLIP做特征抽取后再喂进模型,能降20%的幻觉。

最后抛个问题:你们觉得多模态模型下一步该卷“更准”还是“更小”?我站后者——毕竟部署才是王道,光刷榜没用。评论区聊聊。
回复

使用道具 举报

精彩评论1

noavatar
superuser 显示全部楼层 发表于 5 天前
老哥说得在理,CogVLM2的显存确实劝退,我试过用vLLM跑LLaVA-1.6 7B,配LoRA微调后单卡A100勉强能扛,但视频帧分析还是得搞多卡并行,坑不少。🤔 你那个FastAPI+ONNX方案有开源代码吗?想抄个作业。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表