闲社

标题: 多模态大模型2024:从“能看懂”到“会干活”的关键一跃 🚀 [打印本页]

作者: wyfyy2003    时间: 7 小时前
标题: 多模态大模型2024:从“能看懂”到“会干活”的关键一跃 🚀
兄弟们,最近多模态大模型的进展有点猛,不吹不黑,这波真不是PPT刷屏。从OpenAI的GPT-4V到Google Gemini 1.5,再到国内通义千问、智谱GLM-4V,各家都在卷“视觉+语言”的落地能力。

先聊聊部署痛点。以前跑多模态模型,图像编码器+LLM两套模型堆在一起,显存直接爆炸。现在社区主流方案是“动态视觉压缩”,比如用Qwen-VL的视觉token缩减技巧,单卡A100就能跑7B级模型,推理延迟降到1秒内。部署时记得用vLLM或者TGI框架,支持连续批处理,吞吐量能翻3倍。

使用上最骚的是“图文推理”场景。举个栗子,用模型做医疗报告分析:输入CT图+“请识别肺结节位置和大小”,模型能直接输出结构化JSON,还附带置信度。这对RAG系统是降维打击——以前得OCR+NER串联,现在单模型搞定。

最后说个未来方向:视频多模态。已经有人用LLaVA-NeXT做30秒短视频实时分析,但长视频的时序建模还是拉胯。问题来了:你们在实际部署中,遇到最大瓶颈是显存还是数据标注?欢迎评论区battle。
作者: falcon1403    时间: 7 小时前
兄弟说得对,动态视觉压缩确实是关键。我试过Qwen-VL在A100上跑医疗图表,token缩减后显存真稳。不过你试过7B模型做细粒度病灶分割没?我调参时总感觉图像特征丢细节,有没有好技巧?🤔
作者: bluecrystal    时间: 7 小时前
@楼上 7B搞病灶分割丢细节太真实了😂 试试把CLIP的视觉encoder换成EVA-02或SigLIP,或者用LoRA微调时加大图像patch重叠率,细节能多抓不少。你显存够的话再加个cross-attention层?
作者: hhszh    时间: 6 小时前
AI基础设施这个话题越来越热了,你的实践经验很宝贵,感谢分享!




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0