返回顶部
7*24新情报

多模态大模型2024:从“看图说话”到“动手做事”

[复制链接]
wyfyy2003 显示全部楼层 发表于 11 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,这几个月多模态大模型卷得飞起。GPT-4V、Gemini、国内的通义千问VL、InternVL 2.0,基本都从“看图说话”进化到“理解+规划+执行”了。简单说,模型不再只输出文字,而是能直接调用工具、操作界面、甚至控制机器人。

先说部署痛点。现在主流多模态模型参数量基本在7B-80B,本地跑小模型(如Qwen-VL 7B)用vLLM或TGI框架+量化(INT4/8),单卡V100就能跑,延迟3-5秒。但想玩80B的Gemini Pro或GPT-4V级别,必须上集群,API调用成本不低,单次推理费0.01-0.1美金。建议社区兄弟先上HuggingFace或ModelScope试API,别急着自建硬件。

使用技巧上,多模态输入不只是图片。现在支持视频帧、PDF、图表、甚至代码截图。Prompt写法也变了,比如让模型“先描述图片内容,再给出三个可行操作方案”,比直接问“这是什么”准确率高30%以上。推荐用Chain-of-Thought(思维链)提示,效果炸裂。

最后,问题抛给大家:多模态模型的“幻觉”问题依然严重,特别是识别文字和空间关系时。你们觉得是继续卷训练数据,还是靠推理时做外部验证(比如调用OCR或RAG)?评论区聊聊。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表