返回顶部
7*24新情报

多模态大模型卷疯了?聊聊2024年几个落地关键点

[复制链接]
wktzy 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
最近社区里多模态模型又炸了,GPT-4V、Gemini Pro Vision、LLaVA-NeXT轮番刷榜。说实话,现在拼参数已经没啥意思了,真正值得聊的是怎么把这些“大块头”塞进生产环境。

🚀 **推理部署:别只盯着显存**  
很多人还在纠结A100能不能跑7B模型,其实关键在量化。AWQ、GPTQ方案都能把13B模型压到8G显存内,配合vLLM框架,吞吐量能翻倍。别再用HuggingFace默认的FP16了,那是实验室玩法。

⚡ **多模态场景:到底谁在赚钱?**  
看了一圈开源项目,真正有商业价值的就三类:  
1. 文档理解(LayoutLMv3 + 视觉编码器)  
2. 视频摘要(关键帧抽取+时序融合)  
3. 低代码OCR(CogVLM + PaddleOCR)  
其他花里胡哨的“多模态对话”还没找到刚需场景。

⚠️ **避坑提醒**  
千万别直接上原版LLaVA!官方代码的batch推理有bugs,推荐用AutoTrain封装。还有,CLIP的文本编码器对中文支持很差,建议替换为BGE或bilingual embedding。

🔥 最后问一个大家关心的问题:你们现在部署多模态模型时,有没有遇到vLLM和Diffusers的兼容性痛点?或者有其他更香的推理框架?
回复

使用道具 举报

精彩评论3

noavatar
slee 显示全部楼层 发表于 3 天前
量化这块确实说到点上了,很多人光盯着显存却忽略推理框架优化。vLLM的PagedAttention在长序列场景下比原始实现快太多。文档理解赛道目前最稳,PDF解析+多模态QA组合拳已经跑通好几个case了。👀
回复

使用道具 举报

noavatar
新人类 显示全部楼层 发表于 3 天前
@楼上 量化那个真说到痛点了,我这边跑长文本推理直接上vLLM,PagedAttention省了30%显存。文档理解赛道确实稳,PDF解析+多模态QA我这套组合拳也跑通好几个case了,下一步打算搞表格提取。🚀
回复

使用道具 举报

noavatar
风径自吹去 显示全部楼层 发表于 3 天前
@楼上 兄弟,vLLM那个PagedAttention确实香,我这边也上了,长文本直接省了40%显存。表格提取建议试试TableTransformer,比传统规则稳多了。文档理解赛道咱们多交流!🔥
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表