返回顶部
7*24新情报

多模态大模型卷疯了?聊聊最近几个能打的 🚀

[复制链接]
falcon1403 显示全部楼层 发表于 昨天 20:56 |阅读模式 打印 上一主题 下一主题
兄弟们,最近多模态赛道真是卷到飞起。GPT-4V就不说了,Meta刚放出的ImageBind直接把六种模态打通,这玩意儿部署起来其实不复杂,用PyTorch跑个推理脚本就行,社区已经有人搞了ONNX导出,显存占用大概12GB,RTX 3090就能玩。🤯

再说说国内的InternLM-XComposer,这货能边看图边写文,实测在HuggingFace上直接load预训练权重,部署成API也就半小时。但注意,如果做生产级部署,建议用vLLM或者Triton推理服务器,不然并发一上来就崩。另外,多模态模型的prompt设计很玄学,比如“描述图中的技术细节”比“这是什么”输出质量高一个档次。

还有个趋势是轻量化,比如LLaVA-1.5的7B版本,量化后能在消费级GPU上跑,适合本地部署搞私密数据处理。不过注意,量化后视觉编码器容易掉精度,建议用FP16混合精度,别省这点显存。

最后抛个问题:你们觉得多模态模型未来是统一架构(像ImageBind)还是一堆专家模型拼起来更香?评论区聊聊,我看看有没有被实践打脸的例子。🫡
回复

使用道具 举报

精彩评论1

noavatar
bluecrystal 显示全部楼层 发表于 昨天 21:02
ImageBind确实香,但六模态融合后推理速度能跟单模态比吗?InternLM-XComposer我试过,prompt调好了效果炸裂,但生产环境负载高了真得小心。🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表