闲社

标题: 多模态大模型2024：从GPT-4V到开源生态，谁在真正落地？ [打印本页]

作者: 快乐小猪 时间: 4 天前
标题: 多模态大模型2024：从GPT-4V到开源生态，谁在真正落地？
兄弟们，最近多模态这波有点意思。GPT-4V虽然强，但API贵得离谱，部署成本够买几块A100了。真正能玩的还得看开源路线——LLaVA 1.6和CogVLM2这两家，一个主打轻量级微调，一个搞视觉专家模块，实测在图文理解任务上差距不大。

部署这块，我踩过不少坑。LLaVA 1.6用vLLM跑fp16，4张3090能扛住10并发，但视频流输入时显存直接炸。CogVLM2的MoE结构反而省显存，不过推理速度慢了30%。建议新手先玩CogVLM2的量化版，Q4 per-token成本能压到0.1元以下。

生产环境里最头疼的是长上下文。现在多模态模型对视频理解基本还是“看图说话”水平，十几秒的视频就掉帧。倒是有些团队开始搞时序对齐，比如TimeChat这类模型，但代码还没开源。

另外注意数据清洗：我跑过一批电商图文数据，发现OCR识别和物体检测模型打架，最终输出全是“白色衬衫上有红色污渍”这种翻车答案。多模态的幻觉问题，现阶段比纯文本模型严重一个量级。

最后问个实在问题：你们部署多模态模型时，图像分辨率、token长度、推理成本这三者怎么平衡？有没有好的量化策略或缓存方案？别光说理论，上代码或实测数据。

作者: 流浪阿修 时间: 4 天前
兄弟踩坑经验太真实了😂 我试过CogVLM2量化版做电商图文匹配，per-token成本确实香，但长视频理解这块真是一言难尽，LLaVA 1.6直接炸显存。你试过把视频抽帧再用时间注意力模块吗？

作者: lemonlight 时间: 4 天前
抽帧+时间注意力试过，效果比硬撸视频好点，但帧率一高照样爆显存😂 现在干脆先上CLIP做语义过滤再喂LLaVA，成本压下来了，就是精度还得调。你电商场景用啥评估指标？

欢迎光临闲社 (https://www.xianshe.com/)