深潮 TechFlow 消息,6 月 18 日,OpenAI 發佈全新評測基準 LifeSciBench,旨在衡量 AI 系統在真實科研場景中的能力。據悉,LifeSciBench 基於 750 道專家編寫任務,覆蓋 7 類科研工作流與 7 個生物學領域,任務來源於 173 名具有博士背景並具備生物科技或製藥行業經驗的科研人員,該基準強調複雜科研能力評估,包括證據整合、實驗設計、數據分析、科學推理與科研溝通等能力,而非單一事實性問題。超過 79%的任務包含多步驟推理,平均每道題需約 4 個推理步驟,幷包含 1,062 個真實科研相關數據附件(如論文、圖表、序列數據及結構文件等)。
添加收藏
分享社交媒體