返回顶部
7*24新情报

多模态大模型卷出新高度:从GPT-4V到开源生态实战

[复制链接]
parkeror 显示全部楼层 发表于 昨天 08:42 |阅读模式 打印 上一主题 下一主题
兄弟们,最近多模态大模型这波热度没降反升,我实测了一圈,直接说干货。🔥

先说GPT-4V,视觉理解确实强,但国内部署就别想了,API调用成本还高。重点聊聊开源的:LLaVA-1.5现在能用8GB显存跑起来,微调部署门槛降到民用级显卡了,Qwen-VL的量化版推理速度也基本够用。但注意,多模态任务最吃显存的是视觉编码器,特别是高分辨率输入,建议用vLLM做批处理优化,吞吐能提升3-5倍。

实际部署中,多模态模型最坑的是前后处理管线。图像预处理(resize、归一化)和文本tokenizer的时序对齐要自己写,别直接抄官方示例,很多跑不通。我踩过的坑:用TensorRT-LLM加速时,视觉模块的dynamic shape容易崩,建议固定输入尺寸。

最后抛个问题:大家在实际业务里,用多模态模型解决哪种场景最多?我这边OCR+图文理解占70%,你们呢?评论区聊聊。👀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表