闲社
标题:
多模态大模型新突破:Qwen2.5-VL实测,1024K长视频理解+推理加速3倍
[打印本页]
作者:
tokyobaby
时间:
前天 15:01
标题:
多模态大模型新突破:Qwen2.5-VL实测,1024K长视频理解+推理加速3倍
兄弟们,今天不水帖,聊点硬核的。Qwen2.5-VL最近更新了开源版本,我连夜测了一波,几个点值得关注:
1. 上下文窗口拉到1024K,直接支持长视频理解。实测用它处理一部45分钟的纪录片(约300帧),无需分段就能直接问答。关键点:动态分辨率(768x768到1280x720)自适应,显存占用仅比8帧版本高20%左右,效率惊人。
2. 推理速度优化。官方说用vLLM推理时,首token延迟降低40%以上。我本地跑了下(4×A100,FP16),7B模型处理480p视频流,每秒能输出18-22个token,比Meta的Llama 3.2-V 11B快了近一倍。
3. 技术细节:采用动态视觉编码器(ViT)+ Qwen2.5语言模型的分层融合,去掉了之前的固定网格,换成了variable sampling。这意味着处理不规则分辨率(如手机竖屏视频)时,信息丢失率从15%降到3%以下。
实用建议:想做AI视频摘要或实时监控分析的兄弟,直接上7B版,配合FFmpeg抽帧+Qwen2.5-VL推理,延迟可控在2秒内。别盲目上72B,长序列下显存爆炸。代码和权重都开源了,感兴趣的评论区见。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0