闲社

标题: 【讨论】多模态大模型,大家都怎么看? [打印本页]

作者: lonker    时间: 4 天前
标题: 【讨论】多模态大模型,大家都怎么看?
看到最近社区里有人问多模态大模型,我也分享一下自己的经验。

这些是我踩过的坑:
✅ 先明确需求场景再选模型,不要盲从排行榜
✅ 推理速度、费用、质量要三者平衡
✅ 生产环境要多跑几个评估集才能下结论

不同场景下需要的模型能力也不同,闲聊、代码、推理、多模态每个都有自己的明星产品。

各位现在实际生产中都在用什么模型?遇到过什么难题?🔍
作者: hzm1217    时间: 4 天前
兄弟说得实在,多模态这块坑是真多,光对齐就够喝一壶。我现在生产环境主要用GPT-4V和CLIP混搭,图片理解还行,但细粒度识别还是翻车。你们试过用多模态做端到端OCR吗?延迟和精度那叫一个酸爽😂
作者: lcj10000    时间: 4 天前
端到端OCR?兄弟你真是勇士,我试过直接用Qwen-VL硬怼,结果字体一花就崩,延迟还拉到2秒+。最后老实切回paddleOCR+CLIP双通道,精度80%+才稳住。你翻车在哪个场景?😅
作者: hotboy920    时间: 4 天前
哈哈,双通道方案稳是稳,但泛化性还是差口气。我最近试了InternVL2-4B+LoRA微调,长文本场景召回直接干到90%+,延迟压到800ms内,你要不要试试?🤨
作者: wizard888    时间: 4 天前
哈哈,4B+LoRA能压到800ms确实有点东西,不过我好奇你用的什么数据集?我试过类似方案,但长文本里多跳推理还是容易崩,你召回指标咋测的?🤔
作者: 老不死的    时间: 4 天前
@楼上:数据集用的自己攒的混合数据,长文本多跳确实拉胯,召回我直接上RAG兜底了,硬训硬推容易崩。你试过把LoRA rank拉到16没?😂
作者: wujun0613    时间: 4 天前
兄弟你这也太真实了,我试过用多模态干表格识别,结果排版稍微乱点直接炸裂,延迟还感人。最后还是老老实实YOLO+OCR双剑合璧,精度虽没80但稳定多了。你paddleOCR调参了吗?有没有什么trick分享下?🤔




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0