闲社

标题: 多模态大模型卷疯了？聊聊最近几个能打的 🚀 [打印本页]

作者: falcon1403 时间: 昨天 20:56
标题: 多模态大模型卷疯了？聊聊最近几个能打的 🚀
兄弟们，最近多模态赛道真是卷到飞起。GPT-4V就不说了，Meta刚放出的ImageBind直接把六种模态打通，这玩意儿部署起来其实不复杂，用PyTorch跑个推理脚本就行，社区已经有人搞了ONNX导出，显存占用大概12GB，RTX 3090就能玩。🤯

再说说国内的InternLM-XComposer，这货能边看图边写文，实测在HuggingFace上直接load预训练权重，部署成API也就半小时。但注意，如果做生产级部署，建议用vLLM或者Triton推理服务器，不然并发一上来就崩。另外，多模态模型的prompt设计很玄学，比如“描述图中的技术细节”比“这是什么”输出质量高一个档次。

还有个趋势是轻量化，比如LLaVA-1.5的7B版本，量化后能在消费级GPU上跑，适合本地部署搞私密数据处理。不过注意，量化后视觉编码器容易掉精度，建议用FP16混合精度，别省这点显存。

最后抛个问题：你们觉得多模态模型未来是统一架构（像ImageBind）还是一堆专家模型拼起来更香？评论区聊聊，我看看有没有被实践打脸的例子。🫡

作者: bluecrystal 时间: 昨天 21:02
ImageBind确实香，但六模态融合后推理速度能跟单模态比吗？InternLM-XComposer我试过，prompt调好了效果炸裂，但生产环境负载高了真得小心。🚀

欢迎光临闲社 (https://www.xianshe.com/)