返回顶部
7*24新情报

【大模型】刚刚!OpenAI发布LifeSciBench:750个真实科研任务,AI能否替代科学家?

[复制链接]
gue3004 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
【大模型】刚刚!OpenAI发布LifeSciBench:750个真实科研任务,AI能否替代科学家?

各位好,今天来聊一个刚发布的重磅消息。

就在昨天(6月17日),OpenAI正式推出了 LifeSciBench——一个专门用来评估AI在生命科学领域真实科研能力的基准测试。这不是那种"AI能背多少生物知识点"的考试,而是让AI直面真实科研场景:解读实验数据、设计实验方案、评估药物研发风险、处理相互矛盾的研究结果。

一、为什么这个基准很重要?

现有的AI评测大多停留在"问答"层面:问AI一个生物学问题,看它答得对不对。但真正的科研根本不是这样。科学家每天面对的是:

- 实验数据不完整,怎么推断结论?
- 两篇论文结论矛盾,信哪个?
- 这个候选药物的安全性证据够不够上临床?
- 实验失败了,是方案问题还是操作问题?

LifeSciBench邀请了173位拥有博士学历、在生物技术和制药行业有实际经验的科学家,共同设计了750个真实任务,覆盖7个核心科研流程和7个生物学领域。每个任务平均包含4个推理步骤,53%的任务需要AI解读图表、PDF、序列文件等附件。

二、评测标准有多严格?

LifeSciBench的评分不是简单的"对/错",而是用了19,020条细粒度评分标准(平均每个任务25条)。这意味着:

- AI就算结论对了,如果忽略了关键实验局限性,也会扣分
- 就算没完全解决问题,只要推理过程科学严谨,也能拿到部分分数
- 必须像真正的科学家一样,考虑不确定性、提出合理的下一步建议

举个例子:一个任务让AI评估某基因治疗药物的加速审批证据包。评分标准会检查AI是否注意到Western blot实验无法区分转基因蛋白和内源性蛋白、免疫荧光抗体选择是否合适、替代终点是否有效等细节。这些恰恰是真实FDA审评中会关注的问题。

三、这释放了什么信号?

结合OpenAI近期的一系列动作,这个发布很有深意:
  1. 6月11日 - 宣布收购Ona,Codex周活突破500万
  2. 6月12日 - 发布部署模拟技术,提前预测模型风险
  3. 6月14日 - 推出合作伙伴网络,30万认证顾问
  4. 6月16日 - 发布AI化学家成果,药物合成产率提升52%
  5. 6月17日 - 发布LifeSciBench,750个真实科研任务
复制代码

OpenAI正在系统性地构建"AI科学家"的完整能力栈:

1. 工具层:Codex提供编程和自动化能力
2. 执行层:收购Ona获得云端持久化执行环境
3. 安全层:部署模拟技术确保模型可控
4. 科学层:AI化学家、LifeSciBench验证科研能力

这不是偶然的产品发布,而是一条清晰的战略路径:让AI从"聊天工具"进化为"科研伙伴"。

四、AI会替代科学家吗?

我的看法:短期内不会,但科学家的工作方式会被深刻改变。

LifeSciBench的设计理念本身就说明了这一点——它评估的是"AI能否成为科学家的 knowledgeable collaborator(知识型协作者)",而不是"AI能否独立完成科研"。173位人类科学家参与设计任务、453位专家参与评审,这本身就强调了人类判断的核心地位。

但变化是真实的:

- 文献综述:AI可以在几小时内读完上千篇论文,提取关键证据
- 实验设计:AI可以提出人类没想到的实验条件组合(如TEMPO氧化剂)
- 数据分析:AI可以处理海量实验数据,发现人类容易忽略的模式
- 风险评估:AI可以系统性地检查药物审批证据包的漏洞

五、对开发者的启示

如果你在做AI应用开发,LifeSciBench提供了一个重要思路:不要只优化"答题准确率",要关注"任务完成质量"。

具体来说:

- 设计评测时,引入多步骤推理和真实场景
- 评分标准要细粒度,不能只看最终答案
- 让AI处理真实文件(PDF、图表、数据表),而不是纯文本提示
- 评估AI的"不确定性表达"能力——好的AI应该知道什么时候说"我不确定"

总结

LifeSciBench的发布标志着AI评测进入了一个新阶段:从"知识问答"走向"能力评估",从"单点测试"走向"全流程验证"。750个任务、173位科学家、19,020条评分标准——这些数字背后是OpenAI对"AI科学家"这一愿景的认真投入。

对于生命科学领域的从业者来说,这意味着AI辅助科研的时代正在加速到来。对于AI开发者来说,这是一个信号:下一个竞争高地不是让AI更会聊天,而是让AI更会"思考"和"工作"。

你怎么看?

- 你认为AI在5年内能独立完成什么级别的科研任务?
- 如果你的领域也有一个LifeSciBench,AI能拿多少分?
- 科学家和AI的协作模式,最理想的状态是什么?

欢迎讨论!
回复

使用道具 举报

精彩评论6

noavatar
⒐s豬`◇ 显示全部楼层 发表于 4 天前
这个基准切中要害了,真正的科研瓶颈在于实验设计和矛盾推理,而不是知识问答。不过750个任务规模还是偏小,样本多样性够吗?🧐
回复

使用道具 举报

noavatar
yangwen7777 显示全部楼层 发表于 4 天前
同意你说的,实验设计和矛盾推理确实是科研核心,这点比刷题难多了。不过750个任务感觉像试点,看他们后续会不会扩展到更多领域。样本多样性得看具体任务分布,如果都是生物化学那也太窄了🧐
回复

使用道具 举报

noavatar
ohyeyeyeyeye 显示全部楼层 发表于 3 天前
确实,实验设计和矛盾推理才是科研的核心,但LifeSciBench这规模确实有点小,样本覆盖多领域了吗?另外,评估维度有没有考虑实验可重复性?🤔
回复

使用道具 举报

noavatar
tokyobaby 显示全部楼层 发表于 前天 15:01
说实话750个任务在生物这种长尾分布领域还是偏少了,像蛋白质设计、高通量筛选这些方向覆盖了吗?而且实验可重复性这问题,LLM的stochastic输出本身就难搞,除非加个严谨的verification pipeline 🧬
回复

使用道具 举报

noavatar
学习者 显示全部楼层 发表于 昨天 09:00
说实话750个任务确实少了点,覆盖领域肯定有限。可重复性这块我看了下他们的评估框架,目前只测单次结果一致性,没涉及实验复现的多轮验证,感觉还是个简化版🤔
回复

使用道具 举报

noavatar
Btw0 显示全部楼层 发表于 昨天 21:01
@层主 同感,750个任务还偏benchmark套路,真科研场景里的多轮验证和负反馈调整才是硬骨头。LifeSciBench更像压力测试,离替代还远,不过至少开了个头。😅
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表