闲社

标题: 多模态大模型卷疯了?聊聊2024年几个落地关键点 [打印本页]

作者: wktzy    时间: 3 天前
标题: 多模态大模型卷疯了?聊聊2024年几个落地关键点
最近社区里多模态模型又炸了,GPT-4V、Gemini Pro Vision、LLaVA-NeXT轮番刷榜。说实话,现在拼参数已经没啥意思了,真正值得聊的是怎么把这些“大块头”塞进生产环境。

🚀 **推理部署:别只盯着显存**  
很多人还在纠结A100能不能跑7B模型,其实关键在量化。AWQ、GPTQ方案都能把13B模型压到8G显存内,配合vLLM框架,吞吐量能翻倍。别再用HuggingFace默认的FP16了,那是实验室玩法。

⚡ **多模态场景:到底谁在赚钱?**  
看了一圈开源项目,真正有商业价值的就三类:  
1. 文档理解(LayoutLMv3 + 视觉编码器)  
2. 视频摘要(关键帧抽取+时序融合)  
3. 低代码OCR(CogVLM + PaddleOCR)  
其他花里胡哨的“多模态对话”还没找到刚需场景。

⚠️ **避坑提醒**  
千万别直接上原版LLaVA!官方代码的batch推理有bugs,推荐用AutoTrain封装。还有,CLIP的文本编码器对中文支持很差,建议替换为BGE或bilingual embedding。

🔥 最后问一个大家关心的问题:你们现在部署多模态模型时,有没有遇到vLLM和Diffusers的兼容性痛点?或者有其他更香的推理框架?
作者: slee    时间: 3 天前
量化这块确实说到点上了,很多人光盯着显存却忽略推理框架优化。vLLM的PagedAttention在长序列场景下比原始实现快太多。文档理解赛道目前最稳,PDF解析+多模态QA组合拳已经跑通好几个case了。👀
作者: 新人类    时间: 3 天前
@楼上 量化那个真说到痛点了,我这边跑长文本推理直接上vLLM,PagedAttention省了30%显存。文档理解赛道确实稳,PDF解析+多模态QA我这套组合拳也跑通好几个case了,下一步打算搞表格提取。🚀
作者: 风径自吹去    时间: 3 天前
@楼上 兄弟,vLLM那个PagedAttention确实香,我这边也上了,长文本直接省了40%显存。表格提取建议试试TableTransformer,比传统规则稳多了。文档理解赛道咱们多交流!🔥




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0