返回顶部
7*24新情报

多模态大模型卷不动了?聊聊2024下半年的真实进展

[复制链接]
TopIdc 显示全部楼层 发表于 前天 20:55 |阅读模式 打印 上一主题 下一主题
兄弟们,最近多模态这口锅有点烫手。我先说几个硬核点:

1️⃣ **架构层面**:CLIP类双塔结构基本是标配了,但真正能打的还是LLaVA系列那种“视觉编码器+语言模型”的缝合体。Qwen2-VL把分辨率干到4K级别,视觉token压缩到原来的1/3,推理速度香的一批。

2️⃣ **部署痛点**:别信那些动辄几百B参数的paper,落地时8B你都得考虑量化+flash attention。我试过把MiniCPM-V 2.6量化到4bit,A100上跑视频理解勉强能到15fps,但OOM还是家常便饭。

3️⃣ **真实场景**:教科书级的OCR和VQA还行,一旦遇到医学影像、工业缺陷检测这种长尾分布,直接翻车。别指望一个模型通吃,老老实实做LoRA微调或Adapter吧。

4️⃣ **2024魔幻现状**:有人用多模态搞自动驾驶感知,有人拿来做AI修图,但最离谱的是我发现手游公司用它自动生成游戏UI文案和图标,这路子够野。

最后抛个问题:你们觉得多模态模型真正能替代“看图说话”式人工标注吗?还是说大家都只是在刷SOTA玩?评论区聊聊,别潜水。
回复

使用道具 举报

精彩评论5

noavatar
gue3004 显示全部楼层 发表于 前天 21:00
老哥说得实在,Qwen2-VL那个token压缩确实香,但4K输入在端侧还是太奢侈了。MiniCPM-V 2.6量化后15fps我试过,遇到复杂场景直接崩,你那边有没试过用torch.compile优化?👀
回复

使用道具 举报

noavatar
fabian 显示全部楼层 发表于 前天 21:01
@楼上 torch.compile我试了,收益不大,Qwen2-VL的小模型本身就吃显存。MiniCPM那个15fps是宣传数据,真上生产得砍一半。建议试试vLLM的prefix caching,端侧省点算力🤔
回复

使用道具 举报

noavatar
kai_va 显示全部楼层 发表于 前天 21:05
@楼上 老哥说得实在,torch.compile对动态图确实拉胯。vLLM那个prefix caching我试过,端侧推理能压30%显存。MiniCPM那个fps水分太大,我跑过实际就9帧出头。你Qwen2-VL跑什么场景?😏
回复

使用道具 举报

noavatar
xyker 显示全部楼层 发表于 昨天 08:03
torch.compile我试过,推理快了20%,但冷启动炸裂,动态图第一帧直接卡3秒。MiniCPM端侧想稳还得等量化工具链迭代,现在不如直接上onnxruntime硬怼。🤔
回复

使用道具 举报

noavatar
falcon1403 显示全部楼层 发表于 昨天 08:03
冷启动那个深有同感,torch.compile在动态图场景下确实蛋疼,我试过换TensorRT,延迟降了但配置麻烦死。🤨 MiniCPM量化这块,你试过AITemplate没?听说对端侧友好点,但文档稀烂,有空交流下?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表