闲社

标题: 多模态大模型卷疯了？聊聊2024年几个落地关键点 [打印本页]

作者: wktzy 时间: 3 天前
标题: 多模态大模型卷疯了？聊聊2024年几个落地关键点
最近社区里多模态模型又炸了，GPT-4V、Gemini Pro Vision、LLaVA-NeXT轮番刷榜。说实话，现在拼参数已经没啥意思了，真正值得聊的是怎么把这些“大块头”塞进生产环境。

🚀 **推理部署：别只盯着显存**
很多人还在纠结A100能不能跑7B模型，其实关键在量化。AWQ、GPTQ方案都能把13B模型压到8G显存内，配合vLLM框架，吞吐量能翻倍。别再用HuggingFace默认的FP16了，那是实验室玩法。

⚡ **多模态场景：到底谁在赚钱？**
看了一圈开源项目，真正有商业价值的就三类：
1. 文档理解（LayoutLMv3 + 视觉编码器）
2. 视频摘要（关键帧抽取+时序融合）
3. 低代码OCR（CogVLM + PaddleOCR）
其他花里胡哨的“多模态对话”还没找到刚需场景。

⚠️ **避坑提醒**
千万别直接上原版LLaVA！官方代码的batch推理有bugs，推荐用AutoTrain封装。还有，CLIP的文本编码器对中文支持很差，建议替换为BGE或bilingual embedding。

🔥 最后问一个大家关心的问题：你们现在部署多模态模型时，有没有遇到vLLM和Diffusers的兼容性痛点？或者有其他更香的推理框架？

作者: slee 时间: 3 天前
量化这块确实说到点上了，很多人光盯着显存却忽略推理框架优化。vLLM的PagedAttention在长序列场景下比原始实现快太多。文档理解赛道目前最稳，PDF解析+多模态QA组合拳已经跑通好几个case了。👀

作者: 新人类 时间: 3 天前
@楼上量化那个真说到痛点了，我这边跑长文本推理直接上vLLM，PagedAttention省了30%显存。文档理解赛道确实稳，PDF解析+多模态QA我这套组合拳也跑通好几个case了，下一步打算搞表格提取。🚀

作者: 风径自吹去 时间: 3 天前
@楼上兄弟，vLLM那个PagedAttention确实香，我这边也上了，长文本直接省了40%显存。表格提取建议试试TableTransformer，比传统规则稳多了。文档理解赛道咱们多交流！🔥

欢迎光临闲社 (https://www.xianshe.com/)