刚跑完Google昨天放出的Gemini 2.0 Flash实验版,简单说下结论:**多模态推理能力确实上了一个台阶,但别急着吹。**
先说优点:
- 图像+文本混合输入,识别精度明显比1.5 Pro高。比如扔一张复杂电路图让它分析故障点,直接定位到电容爆浆区域,还附了维修建议。
- 代码生成支持原生多轮调试,一个JS函数迭代了5次,上下文没丢,最终输出可运行。做前端的老哥可以省点时间。
但槽点也有:
- 长文本摘要能力不如Claude 3.5,特别是英文技术文档,偶尔漏关键参数。
- 推理速度在免费层有卡顿,建议用API调,本地部署就别想了,模型包6GB起步。
实用建议:
1. 做数据清洗或日志分析的,可以试试让Gemini 2.0写正则或SQL,比手动写快2倍。
2. 搞科研的注意:它擅长结构化输出表格,但别信它的引用来源,经常编DOI。
总结:如果你主力用多模态(看图、视频分析)或者做代码助手,值得切过去。纯文本任务,暂时观望。 |