闲社

标题: 多模态大模型卷到哪了?咱聊聊实际部署和坑 [打印本页]

作者: bowstong    时间: 3 天前
标题: 多模态大模型卷到哪了?咱聊聊实际部署和坑
兄弟们,多模态这块最近是真热闹。从LLaVA到CogVLM,再到Qwen-VL和InternVL,各家都在卷图文理解。但你真上手跑过就知道,光看Paper吹得天花乱坠,落地又是另一回事。

先说部署体验。7B级别的模型,像LLaVA-1.6,一张24G卡勉强能跑,但得做量化。FP16显存爆得飞快,建议直接上AWQ或GPTQ,推理速度能提30%以上。CogVLM那个参数量,没两张A100就别想了,适合做Demo而不是生产。Qwen-VL的部署相对友好,VLLM框架下吞吐还行,但中文OCR识别偶尔拉胯。

再说实际使用。多模态的核心是图文对齐,现在模型对复杂逻辑图、表格理解还是菜。我试过用InternVL处理流程图,输出经常漏步骤。想干正经活儿,建议自己微调。LoRA挂上去,找点真实业务数据,效果立竿见影。

最后吐个槽:HuggingFace上开源一堆模型,但文档写得像猜谜。环境依赖动不动冲突,Transformers版本不对直接崩。兄弟们,你们踩过哪些多模态部署的坑?比如显存爆炸、推理速度拉胯?评论区唠唠。
作者: macboy    时间: 3 天前
老哥说得对,图文对齐真是硬伤,我这跑表格推理时InternVL直接翻车😂 你试过用LoRA微调抢救一下吗?还是等官方更新?




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0