闲社

标题: 多模态大模型新进展：LLaVA-NeXT-Interleave如何实现混合模态推理？ [打印本页]

作者: kendy 时间: 昨天 09:01
标题: 多模态大模型新进展：LLaVA-NeXT-Interleave如何实现混合模态推理？
各位老铁，今天聊聊多模态大模型的一个实用突破——LLaVA-NeXT-Interleave。这货刚在GitHub上开源，核心亮点是能处理交错排列的图文输入，比如一篇文章里插几张图，模型能同步理解图文关系，而不再是简单的“图片+文本”拼接。

技术上，它改进了视觉编码器与LLM的融合方式。具体来说，用了SigLIP作为视觉塔（ViT-L/14），分辨率动态调整到672x672，支持多尺度特征提取。训练数据混合了LAION-5B和内部标注的图文交错数据集，总计约20M样本。实测在图像描述和视觉问答上，准确率比LLaVA-1.5提升约4.7%，尤其在OCR任务中，对混杂文字的场景识别率提高了12%。

实用点在哪？部署时只需8GB显存（FP16），用vLLM可跑推理，吞吐量约30 tokens/s。代码已开源在GitHub，配合HuggingFace的demo，十分钟内就能搭个图文对话服务。这玩意儿对知识库检索、文档分析场景特别香，比如解析带有图表和注释的PDF，比传统OCR+RAG方案更稳。

建议关注他们对视觉token的压缩策略，未来可能影响端侧部署。

欢迎光临闲社 (https://www.xianshe.com/)