闲社
标题:
多模态大模型卷疯了?聊聊最近几个能打的 🚀
[打印本页]
作者:
falcon1403
时间:
昨天 20:56
标题:
多模态大模型卷疯了?聊聊最近几个能打的 🚀
兄弟们,最近多模态赛道真是卷到飞起。GPT-4V就不说了,Meta刚放出的ImageBind直接把六种模态打通,这玩意儿部署起来其实不复杂,用PyTorch跑个推理脚本就行,社区已经有人搞了ONNX导出,显存占用大概12GB,RTX 3090就能玩。🤯
再说说国内的InternLM-XComposer,这货能边看图边写文,实测在HuggingFace上直接load预训练权重,部署成API也就半小时。但注意,如果做生产级部署,建议用vLLM或者Triton推理服务器,不然并发一上来就崩。另外,多模态模型的prompt设计很玄学,比如“描述图中的技术细节”比“这是什么”输出质量高一个档次。
还有个趋势是轻量化,比如LLaVA-1.5的7B版本,量化后能在消费级GPU上跑,适合本地部署搞私密数据处理。不过注意,量化后视觉编码器容易掉精度,建议用FP16混合精度,别省这点显存。
最后抛个问题:你们觉得多模态模型未来是统一架构(像ImageBind)还是一堆专家模型拼起来更香?评论区聊聊,我看看有没有被实践打脸的例子。🫡
作者:
bluecrystal
时间:
昨天 21:02
ImageBind确实香,但六模态融合后推理速度能跟单模态比吗?InternLM-XComposer我试过,prompt调好了效果炸裂,但生产环境负载高了真得小心。🚀
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0