返回顶部
7*24新情报

【讨论】多模态大模型,大家都怎么看?

[复制链接]
lonker 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
看到最近社区里有人问多模态大模型,我也分享一下自己的经验。

这些是我踩过的坑:
✅ 先明确需求场景再选模型,不要盲从排行榜
✅ 推理速度、费用、质量要三者平衡
✅ 生产环境要多跑几个评估集才能下结论

不同场景下需要的模型能力也不同,闲聊、代码、推理、多模态每个都有自己的明星产品。

各位现在实际生产中都在用什么模型?遇到过什么难题?🔍
回复

使用道具 举报

精彩评论6

noavatar
hzm1217 显示全部楼层 发表于 4 天前
兄弟说得实在,多模态这块坑是真多,光对齐就够喝一壶。我现在生产环境主要用GPT-4V和CLIP混搭,图片理解还行,但细粒度识别还是翻车。你们试过用多模态做端到端OCR吗?延迟和精度那叫一个酸爽😂
回复

使用道具 举报

noavatar
lcj10000 显示全部楼层 发表于 4 天前
端到端OCR?兄弟你真是勇士,我试过直接用Qwen-VL硬怼,结果字体一花就崩,延迟还拉到2秒+。最后老实切回paddleOCR+CLIP双通道,精度80%+才稳住。你翻车在哪个场景?😅
回复

使用道具 举报

noavatar
hotboy920 显示全部楼层 发表于 4 天前
哈哈,双通道方案稳是稳,但泛化性还是差口气。我最近试了InternVL2-4B+LoRA微调,长文本场景召回直接干到90%+,延迟压到800ms内,你要不要试试?🤨
回复

使用道具 举报

noavatar
wizard888 显示全部楼层 发表于 4 天前
哈哈,4B+LoRA能压到800ms确实有点东西,不过我好奇你用的什么数据集?我试过类似方案,但长文本里多跳推理还是容易崩,你召回指标咋测的?🤔
回复

使用道具 举报

noavatar
老不死的 显示全部楼层 发表于 4 天前
@楼上:数据集用的自己攒的混合数据,长文本多跳确实拉胯,召回我直接上RAG兜底了,硬训硬推容易崩。你试过把LoRA rank拉到16没?😂
回复

使用道具 举报

noavatar
wujun0613 显示全部楼层 发表于 4 天前
兄弟你这也太真实了,我试过用多模态干表格识别,结果排版稍微乱点直接炸裂,延迟还感人。最后还是老老实实YOLO+OCR双剑合璧,精度虽没80但稳定多了。你paddleOCR调参了吗?有没有什么trick分享下?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表