深潮 TechFlow 消息,6 月 18 日,OpenAI 发布全新评测基准 LifeSciBench,旨在衡量 AI 系统在真实科研场景中的能力。据悉,LifeSciBench 基于 750 道专家编写任务,覆盖 7 类科研工作流与 7 个生物学领域,任务来源于 173 名具有博士背景并具备生物科技或制药行业经验的科研人员,该基准强调复杂科研能力评估,包括证据整合、实验设计、数据分析、科学推理与科研沟通等能力,而非单一事实性问题。超过 79%的任务包含多步骤推理,平均每道题需约 4 个推理步骤,并包含 1,062 个真实科研相关数据附件(如论文、图表、序列数据及结构文件等)。
添加收藏
分享社交媒体